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Введение 


В книге рассматриваются темы, находящисся на стыке двух важнейших тех- 
нологий, применяемых в Мер и для поддержки функционирования информа- 
ционных служб. Насегодняшний день Х МТ, является самым современным и наи- 
более приемлемым языком разметки для работы с данными, содержащими описание 
собственной структуры. В распоряжении программиста оказываются средства, по- 
зволяющие реализовать обобщенный формат представления данных. Выбор языка 
написания сценариев Рей для обработки ХМГ-кода представляется вполне есте- 
ственным (особенно если учесть то, что Рег] длительное время применяется \е- 
программистами для комбинирования разнородных компонентов и генерирования 
динамического содержимого в Сети). 


Язык ХМГ обладает гораздо большими возможностями, чем НТМІ, по вто же 
время он менее требователен к ресурсам, чем ЗС МГ. Благодаря этому его 1 'спользо- 
вание целесообразно для решения многих задач. Этот язык, в силу своей гибкости, 
пригоден для описания информации любого типа, от обычных“ Ъ-странии до юри- 
дических контрактов на издание книг. Точности, которая достигается благодаря 
ХМЕ-описанию, виолне достаточно для форматирования данных средствами. пред- 
лагаемыми такими информационными службами, как ЗОАР и ХМІ-КРС. Также 
реализована поддержка распространенных стандартов, например кодировки Отисо4е. 
Благодаря универсальности этой кодировки обеспечивается обратная совместимость 
с кодировкой АЅСП. Несмотря на разнообразие возможностей, язык Х МІ. порази- 
тельно прост в применении. В силу этого многие разработчики рассматривают его 
в качестве некоего «эликсира молодости», способного придать новые качества ста- 
рым программам. 

Учитывая тот факт, что язык программирования Ре! изначально предназна- 
чался для обработки текста, можно прийти к выводу, что Ре! и ХМГ образует 
весьма удачную комбинацию. В этой ситуации возникает вполне логичный воп- 
рос: каким образом следует сочетать эти компоненты? Именно на него и дает ответ 
наша книга. 
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Для кого написана эта книга 


Книга предназначается для программистов, интересующихся вопросами приме- 
нения языка Ре! для обработки ХМГ-документов. Предполагается, что читатель 
уже знаком с основами Рей. В ином случае советуем вам обратиться к книге 
В. Водолазкою «Энциклопедия Регі»!. 

При чтении книги не требуется большого опыта работы с ХМГ. Но восприятие 
материала значительно упростится, если вы будете знакомы с какими-нибудь язы- 
ками разметки, например с НТМГ. В случае необходимости обратитесь к книге 
А. Гончарова «Самоучитель НТМІ»?. 

При изучении материала книги крайнс желательно иметь доступ к Интернету, 
а особенно — к всеобъемлющей архивной сети Рей (СРАМ, Сотргеһепѕіуе Ре! 
Атсһіуе Меімогк), поскольку по мере чтения вам придется загружать те или иные 
модули из сети СРАМ. 

И конечно, гарантом успешного освоения материала книги будет ваше самостоя- 
тельное программирование на Рег1 и ХМГ. Хотя эта книга ограничена по объему, но 
содержащихся в пей сведений вполне достаточно для успешного начала работы. 


Структура книги 


Книга состоит из десяти глав. 

Глава 1 носит вводный характер. Нетерпеливые читатели книги здесь же могут 
познакомиться с первым практическим примером. 

Глава 2 предназначена для читателей, которые лишь поверхностно знакомы 
с ХМГ. Здесь находится синтаксический справочник, включающий описание струк- 
туры и форм выражения этого языка. Если вы хорошо знакомы с ХМІ, можете 
смело пропустить эту главу (только потом не жалуйтесь на то, что не можете понять 
дальнейшего материала). 

В главе 3 демонстрируются способы чтения и записи данных при работе с ХМГ- 
докумептом. Конечно, самое интересное происходит на других этапах, но в любом 
случае будет полезным знать, как следует выполнять эти основные операции. 

Глава 4 посвящена описанию потоков событий, образующих ядро большинства 
операций по обработке кода ХМГ. 

В главе 5 описываются основы Ѕітріе АРІ, предназначенного для обработки ХМГ- 
документов (ЅАХ), — стандартного интерфейса для потоков событий. 

Глава 6 посвящена вопросам обработки деревьев, образующих базовую структуру 
всех ХМІ-документов. Мы начнем с простых структур встроенных типов данных и 
постепенно перейдем кусложненным объектно-ориентированным моделям деревьев. 

В главе 7 рассматривается объектная модель документа (Ооситепі Објесі Моаеі, 
РОМ) — еще один стандартный распространенный интерфейс. Здесь же приводятся 
примеры, демонстрирующие ускорение обхода ХМГ-деревьев средствами РОМ. 

Глава 8 посвящена дополнительным вопросам обработки деревьев, включая де- 
ревья событий и сценарии преобразования. 

В главе 9 рассматриваются приложения, созданные с помощью Рей и ХМГ, ре- 
ально применяемые в повседневной практике. 


' Водолазкий В. Энциклопедия Регі. — СПб.: Питер, 2001. 
2 Гончаров А. Самоучитель НТМГ. — СПб.: Питер, 2001. 
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Глава 10 подводит итог изученному материалу. Теперь, когда освоены модули, 
рассматривается их применение на практике, а также отмечаются возможные «под- 
водные камни». 


Источники информации 


Несмотря на то что в книге содержится весь материал, необходимый для начала 
программирования на Рей и ХМІ, со временем модули изменяются, появляются 
новые стандарты, в результате чего у вас может возникнуть подозрение относитель- 
но неполноты излагаемого материала. Эту проблему можно решить, используя до- 
полнительныеисточникиинформации. 


Список рассылки регі-хті 


Если вы планируете работать с Ре! иХМІ., используя все открывающиеся при этом 
возможности, первым делом изучите этот список рассылки. Для того чтобы подпи- 
саться на него либо просмотреть статьи из прошлых выпусков, необходимо обра- 
титься к \еб-узлу һір://аѕрп.асіуеѕѓаќе.сот/АЅРМ/Маі/Вгоуѕе/ Гшеадеа/реп-хті. 
Можно также обратиться к жер-узлу по адресу ћір;//ууу.хтірейсот, содержа- 
шему сведения по всем вопросам, относящимся к программированию на Рей/ХМГ.. 


Сеть СРАМ 


Большинство модулей, рассматриваемых в книге, не включены в комплект поставки 
Рей, поэтому вам потребуется загрузить их из сети СРАМ. Если вы уже работали 
ранее с Рет, то, наверное, знакомы с этой сетью. В этом случае процесс загрузки и 
установки модулей не составит особого труда. Если же вы не обладаете опытом 
подобного рода, обратитесь к жер-узлу по адресу һір://уүү.ѕрап.огр. На этом узле 
найдите раздел часто задаваемых вопросов и ответов (ЕАО), где содержится необ- 
ходимая справочная информация. Ознакомившись с этим разделом, найдите требу- 
емый Регі-модуль (имейте в виду, что подобный модуль может включаться в стан- 
дартный Регі-дистрибутив). 
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Джейсон хотел бы выразить признательность Джулии за то, что она всячески 
поддерживала его при работе над этим проектом; играм от фирмы Гоопеу Габѕ (НИр:/ 
ммм Іоопеуіабѕ.сот), а также Бостону Уоррену (Воѕїоп М№аггеп), поддерживающе- 
му здоровье автора напоминаниями о необходимости отдыха; Джошу и Османской 
империи, которые позволяли ему иногда уходить от реальности; кафе рРіеѕе! Са 
в Соммервилле (штат Массачусетс) и кафе 1369 Сойее Ноџѕе в Кембридже, кото- 
рые совершенно случайно сыграли роль его альтернативных офисов; соседям Чарли, 
Кэри и сериалу: Тһе Саѓ; фирме АррІе Сотриќѓег за превосходный ноутбук 1ВооК и 
Мас ОЅ Х, которые чаще всего применялись при написании книги и выполнении 
хакерских упражнений; ну и конечно, Ларри Уоллу (Гаггу №11) и всей его чудесной 
и восхитительной команде, которые подарили нам Ре!|. 


От издательства 


Ваши замечания, предложения и вопросы отправляйте по адресу электронной почты 
сотр@ріќег.сот (издательство «Питер», компьютерная редакция). 

Мы будем рады узнать ваше мнение! 

Все исходные тексты, приведенные в книге, вы можете найти по адресу ћќїр:// 
мүү.рііег.сот/аомпіоаа. 

На жеб-узле издательства НЁр://мимм.ркегсот вы найдете подробную информа- 
цию о наших книгах. 


Рей и ХМЕ 


Язык программирования Рег! появился достаточно давно и изначально был ори- 
ентирован па обработку текста. В отличие от Реп, за «плечами» ХМІ —- всего лишь 
считанные годы, но за это время он успел зарекомендовать себя с самой лучшей 
стороны. Этотязык широко применяется для обработки \еь-содержимого, выпол- 
нения различных операций с документами, проектирования \еб-служб, а также в 
любой другой ситуации, в которой требуется структурирование изменчивой ин- 
формации. Несмотря на столь различную природу, эти языки прекрасно ужива- 
ются вместе. И именно описанию истории их порой сложного, но удачного союза 
посвящена эта книга. 


В чем причина тесного союза между Рей ихМЕ? 


В первую очередь следует отметить, что Рей идеально подходит для обработки 
текста. Он поддерживает дескрипторы файлов, объекты документов, выполняет 
обработку строк, а также предлагает возможности по созданию регулярных выра- 
жений. Любой, кому приходилось изначально разрабатывать программы па низ- 
коуровневом языке, таком как С, а потом — на Рей, понимает, что Ре! гораздо 
лучше приспособлен для обработки текста. А ХМІ., по существу, — это обычный 
текст, поэтому Рег и ХМІ. прекрасно дополняют друг друга. 

Более того, начиная с версии 5.6, Рей допускает работу с символьными коди- 
ровками, основанными на Шпісойе (например, ОТЕ-8), и именно этот факт чрез- 
вычайно важен при обработке ХМ1.-докумеитов. Дополнительные сведения о сим- 
вольных кодировках можно найти в главе 3. 

Во-вторых, следует так же учитывать наличие всеобъемлющей архивной сети Рей 
(СРАМ), включающей множество Регі-модулей, доступных всем желающим. Благо- 
даря этому задачи программиста значительно упрощаются; каждый, начинающий 
программировать на языке Рей, может просто воспользоваться готовыми модуля- 
ми. Благодаря этому достигается значительная экономия времени и средств. На- 
пример, зачем создавать собственный анализатор кода (рагѕег), если в сети СРАМ 
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содержится множество готовых анализаторов, доступных для свободной загрузки? 
Причем, как правило, все модули заранее протестированы и могут подстраиваться 
под конкретные нужды. Сеть СРАМ не относится к числу жестко заданных струк- 
тур: в ее развитие вносит вклад множество людей, а всякие проявления контроля 
имеют ограниченный характер. Кактолько возникает новая технология, в сети СРАМ 
появляется поддерживающий ее модуль. Благодаря этому свойству прекрасно до- 
полняются возможности ХМГ, в результате чего могут изменяться старыс и добав- 
ляться новые вспомогательные технологии. 

Изначально ХМГ-модули росли и множились «как грибы после дождя». Каж- 
дый модуль был снабжен уникальным интерфейсом и имел присущий ему ориги- 
нальный стиль в традициях Регі. В последнее время начала проявляться тенденция 
к созданию универсального интерфейса, позволяющего реализовать взаимозаменя- 
емость модулей. Если вас в силу каких-либо причин не устраивает синтаксический 
анализатор ЅАХ, вы можете легко воспользоваться каким-либо другим анализато- 
ром, не прилагая для этого дополнительных усилий. 

В-третьих, гибкие возможности Рей, обеспечивающие объектно-ориентирован- 
ное программирование, являются весьма полезными при работе с ХМГ. Данные в 
ХМГ-документе имеют иерархическую структуру, образованную с помощью ба- 
зовых единиц. Эти единицы называются ХМГ-элементами и могут содержать вло- 
женные элементы. В результате элементы, образующие документ, могут быть пред- 
ставлены с помощью одного класса объектов, включающего простые идентичные 
интерфейсы. Более того, язык разметки ХМЕ инкапсулирует содержимое этих 
объектов ‚ которые, в свою очередь, инкапсулируют код и данные. В результате 
они прекрасно дополняют друг друга. Нетрудно заметить, что подобные объекты 
весьма полезны при организации модульной структуры ХМТ-процессоров. Они 
включают анализаторы, фабрики анализаторов, вспомогательные объекты, а так- 
же анализаторы, возвращающие объекты. Все это обеспечивает создание «прозрач- 
ного» кода, который может выполняться практически на всех платформах. 

В-четвертых, большое значение имеет связь между Ре! и У\еЪ. Конечно, Јауа и 
ЈауаЅсгірї обладают поистине неисчерпаемыми возможностями в этой области, но 
любой, кто немного разбирается в мер-программировании, скажет вам, что Рей 
применяется при организации серверной части большинства мер-серверов. Мно- 
гие мер-библиотеки, написанные на языке Ре!|, могут легко адаптироваться с уче- 
том их применения в ХМГ. Опытные программисты, которые годами разрабаты- 
вали \еб-узлы на языке Рей, могут свободно стать поддаными «королевства» ХМГ. 

И наконец, при выборе языка программирования следует исходить из личных 
мотивов. Язык Ре! идеален при работе с ХМГ-кодом, но не следует замыкаться 
исключительно па нем. Просто попробуйте поработать с ним. 


ХМЕ проще, чем вы думаете 


Многие люди склонны рассматривать ХМІ. как результат вмешательства некоего 
«злого гения», который, как минимум, собирается уничтожить все человечество. 
Внедренный язык разметки, с его угловыми скобками и слэшами, на первый взгляд 
кажется довольно сложным. К тому же, если учитывать наличие вложенных эле- 
ментов, типов узлов и объявлений ОТО, ситуация значительно осложняется. 

А теперь авторы книги хотят поделиться с читателем маленьким секретом: со- 
здание программ, предназначенных для обработки ХМГ-кода, не составляет осо- 
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бого труда. Существует целый спектр инструментальных средств, ориентирован- 
ных па выполнение синтаксического анализа и построения структур данных. При- 
чем в распоряжение пользователя предоставляются удобные в применении АРІ, 
овладеть которыми возможно в течение нескольких минут. Если вы хотите испы- 
тать всю прелесть по-настоящему сложных ХМГ-приложений, особых препятствий 
для этого нет, но все же не следует чрезмерно все усложнять. Сложность ХМГ- 
кода варьируется в очень широких пределах, и в случае разработки простого ХМІ- 
приложения следует пользоваться простыми инструментальными средствами. 

Для иллюстрации справедливости этого утверждения рассмотрим простой ба- 
зовый модуль, именуемый ХМІ. : : $5ітр1е, созданный Грантом Мак Клином (Стапё 
МсГеап). При минимальных трудозатратах со стороны пользователя обеспечива- 
ется доступ к солидному набору полезных свойств, обеспечивающих обработку 
ХМГ-кода. 

Как известно, типичная программа считывает ХМІ -документ, выполняет неко- 
торые изменения, записывая их при этом в файле. Назначение модуля ХМЕ : : $ітр1е 
заключается во всемерной автоматизации этого процесса. В результате вызова под- 
программы происходит считывание ХМГ-документа и сохранение его в памяти. 
Для представления элементов и данных применяются встроенные хэш-символы. 
После завершения всех необходимых изменений вызывается другая подпрограм- 
ма, выполняющая запись информации в файл. 

А теперь перейдем к непосредственным практическим испытаниям. Как и в 
случае с любым другим модулем, директива и5е применяется для объявления 
ХМЕ: : 51тр1ев программе: 


ие ХМЬ: : $1тр1е; 


После выполнения этой инструкции ХМЕ : : 51тр1е в пространство имен экс- 
портирует две подпрограммы: 


* ХМ. 110 — эта подпрограмма считывает ХМГ-документ из файла или стро- 
ки и создает структуру, включающую данные и элементы. В ходе осуществ- 
ления этого процесса возвращается ссылка на хэш, содержащий структуру. 


* ХМЬои 1() — эта подпрограмма, располагая ссылкой на хэш с закодированным 
документом, генерирует ХМГ-разметку и возвращает ее в виде строки текста. 


При желании можно создавать документ «с нуля» путем генерирования струк- 
тур данных на основе хэш-символов, массивов и строк. Применение подобного ме- 
тода рекомендуется при первичном создании файла. Воздерживайтесь от приме- 
нения круговых ссылок или некорректно функционирующих модулей. 

Предположим, что ваш босс собирается отослать сообщения группе пользова- 
телей приложения Ума ебой ЅратСћһисКег, управляющего списками рассылки. 
Одним из свойств этого приложения является возможность импорта/экспорта 
ХМГ-файлов, представляющих списки рассылки. Единственная проблема в этом 
случае заключается в том, что боссу затруднительно читать на экране имена пользо- 
вателей в их исходном виде и он предпочитает, чтобы они отображались с приме- 
нением заглавных букв. В силу этого требуется написать программу, редактирую- 
шую ХМГ-файлы данных и выполняющую требуемые преобразования. 

Первой выполняемой задачей в этом случае будет анализ ХМГ-файлов с це- 
лью определения стилей разметки. Образец подобного документа приводится в 
листинге 1.1. 
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Листинг 1.1. Файл данных ЅратСһискег 


<?хмі мегѕіоп="1.0"?> 
<ѕрат- їаоситепї уегѕіоп=" 3.5" іітеѕїатр=" 2002-05-13 15:33:45"> 
<!- Автоматически генерируется Магр1еѕ0?#ї брат, версия 3.5 -> 
<сиѕїотег > 
<#ігѕТ-пате> Јое</#ігѕї- пате> 
<ѕигпаме>иг і ;1еу< / зигпаме> 
<аййгеѕ5> 
<5ігееї>17 Веар1Іе Ауе . </5їгееї> 
<510у>Меасра11</сібу> 
<зЕабе>МТ</збабе> 
<71р>82649</21р> 
</аддгеѕѕ> 
<етаі1> јоемгір1 еуҝ@јтас.огв</етаі1> 
<аре>42</аве> 
</сиѕіотег> 
<сиѕїотег> 
<{175{-пате>Непгтетта< /Т1и${ -паме> 
<ѕигпате>Риѕѕусаї< / игпате> 
<аЯЯгез$> 
<5ігееї>К.Е.р. 2</ѕгееб> 
<сібу>Е1ападегуі11е</сібу> 
<5{аїе>МҮ</5їаїе> 
<21р>83642</21р> 
</аддгеѕѕ> 
<етаі1 > теом@2 63А. огЕ</емаї1> 
<аде>37</аде> 
</сиѕїотег> 
</ѕрат- їаоситепі> 


Ознакомившись со страницей репаос, описывающей модуль ХМЬ : : $5 ітр1е, вы 
сможете чувствовать себя достаточно уверенно и написать небольшой сценарий, 
показанный в листинге 1.2. 


Листинг 1.2. Сценарий, выполняющий замену строчных на прописные буквы 
в именах заказчиков 


Программа выполняет замену строчных букв на прописные 
в именах заказчиков по всему ХМ! -документу, 


сформированному приложением Маур1ебоЕЕ ЅрапСһосКкег. . 
Включение ограничений и предупреждений, в этом случае 
вы знаете что делать. 

оѕе ѕїгісї; 

изе магпіпоѕ; 


Импорт модуля ХМІ::5ітр1е. 
ие ХМ: : 5ітр1е; 


Включение файла в хэш-ссылку с помощью процедуры 
"ХМіп" из модуля 
ХМЕ::5ітрїе. 


Также включается опция 'Тогсеаггау', поэтому 

все элементы 

содержат ссылки на массив. 

пу 5сиѕі жи = ХМ іп('./сиѕїотегѕ.хті', Еогсеаггау=>1) ; 


Выполнение цикла по каждому субхэшу сиѕіопег, 
причем все объекты хранятся в вице анонимного 
списка под ключом 'сиѕїотег'. 

Ёо” пу $сизботег (@{$%сиѕї хті-> { сиѕёотег)}) { 
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# Замена строчных на прописные буквы в элементах 

#'Тігсї-паме' и ‘'зигпате’ путем выполнения встроенной 

# функции Рег1, ц<(). 

Ғогеасһ (9м(1г$&-пате затраме)) { 
бсизбомег->{$_}->[0] = ис($сиѕіотег-> {$ }-> [01); 

} 


} 


# Повторный вывод на печать хэша в виде ХМІ-документа, 
# включающего завершающий символ новой строки 

# (для улучшения восприятия кода) 

ргіпі ХМІочї ($сиѕї хт1); 

ргіпЕ "\п"; 


В результате выполнения программы (возможно, связанного с некоторыми 
проблемами, с тех пор как всеми данными распоряжается ваш босс), получаем 
следующий результат: 


<орё уегѕзіоп= "3.5" ііпеѕёатр= "2002-05-13 15:33:45"> 
<соѕсотег> 
<айагеѕ55> 
<5+аїе>МІ</5їаїе> 
<21р>82649</21р> 
<сїћу>Меаїра11</сіїу> 
<сігееі>17 Веаріе Ауе. </ѕїгееї> 
</аддгеѕѕ> 
<#1Гг5Е-пате> Ј0Е</#ігѕї-паме> 
<ета11>1-11Ке-сНее5е@] #1 ас. оге</епаї1> 
<5игпам е> МкІС 1 ЕҮ< / зи гпаме> 
<аре>42</аре> 
</сиѕтотег> 
<сиѕсотет> 
<аддгеѕѕ> 
<эбабе>мУ</эбабе> 
<210>83642</21ір> 
<сїіу>Е1апвегуі11е</сіїу> 
<Ѕігееї>К.Е.0. 2</збуееб> 
</аддгеѕѕ> 
<#1г5Е-пате> НЕМЕІЕТТА</#ігѕї- пате> 
<етаї1> іпеомтеом@ацећ. ога</етаії> 
<ѕуигпате>РЏЅ5ҮСАТ</ ѕигпаме> 
<аве>37</аре> 
</сазбопет> 
</орё> 


Примите наши поздравления! Вы написали программу, выполняющую обра- 
ботку ХМІ -кода, которая, к тому же, хорошо работает. Достигнут почти превос- 
ходный результат. Применяемое здесь слово «почти» свидетельствует о том, что 
поведение программы немного отличается от ожидаемого. Поскольку хэш-симво- 
лы не сохраняют порядок следования содержащихся в них элементов, он будет 
изменен. Также могут отсутствовать пробелы между элементами. Может ли это 
представлять проблему? 

В рассматриваемом сценарии подчеркивается важная мысль: необходимость 
компромисса между простотой и сложностью. Как разработчику вам потребуется 
принять решение относительно того, что составляет важную часть кода. написан- 
ного на языке разметки, а что — нет. Иногда имеет значение порядок следования 
элементов. В этом случае использование модулей, подобных ХМ! : : Ѕітріе, не до- 


ХМЕ-процессоры 19 


пускается. Либо программисту требуется получить доступ к обрабатываемым ин- 
струкциям, атакже сохранять их в файле. И снова модули, подобные ХМ: : З1ирте, 
не обладают подобными возможностями. Поэтому прежде, чем принять решение 
относительно использования конкретного модуля, требуется оценить его возмож- 
ности. В данном случае все значительно проще, поскольку вы проконсультирова- 
лись со своим боссом и проверили программу ЅратСћисКег, воспользовавшись 
набором измененных данных. В результате были удовлетворены все заинтересо- 
ванные лица. Полученный и исходный документы похожи, благодаря чему можно 
прийти к выводу о соответствии требованиям, выдвигаемым к приложению’. 
Поэтому считайте, что вы прошли «боевое крещение» и приступили к обработке 
ХМІ-документа с помощью Ре!!! 

Имейте в виду, что мы находимся только в начале пути. Большая часть книги 
оформлена в виде курса опережающего обучения и содержит множество советов и 
методик, предназначенных для выполнения обработки любых ХМГ-докумснтов. 
Не каждая проблема, имеющая отношение к этому процессу, является столь же 
простой, как указывалось выше. В любом случае авторы книги надеются, что чита- 
тели достаточно подготовлены и не испытывают непреодолимых сложностей, свя- 
занных с обработкой ХМГ-документов средствами Реп. 


ХМЕ-процессоры 


Теперь, когда была рассмотрена «простая сторона» ХМГ, приступим к изучению 
некоторых особенностей этого языка. Эти особенности следует учитывать при ра- 
боте с ХМ. и Рен. 

В книге часто встречается термин ХМІ-процессор (нередко сокращаемый до 
слова процессор, который в корне отличается от соответствующего термина, обо- 
значающего центральное вычислительное устройство компьютерной системы). 
Этому термину присущ в максимальной степени обобщенный смысл. Для про- 
цессора не суть важно, что именно делает программа с обрабатываемым им доку- 
ментом. Он не определяет источники происхождения документа, а также методы 
его дальнейшей обработки. 


Как и следовало ожидать, функционирование ХМГ-процессора, рассматривае- 
мое в чистом виде, не представляет особого интереса. Исходя из этих соображений, 
можно прийти к выводу, что компьютерная программа, которая делает что-либо по- 
лезное при обработке ХМГ-документа, использует процессор просто в качестве од- 
ного из компонентов. Процессор обычно считывает ХМГ-файл, а затем, применяя 
возможности синтаксического анализа, преобразует его в структуры, находящиеся 
в памяти. которые далее обрабатываются программой. 

В мире Рег подобное поведение определяется с помощью Регі-модулей: как 
правило, в случае, когда требуется обработка ХМГ-кода, осуществляемая с помо- 
щью инструкции изе. При этом используется существующий пакет, обеспечиваю- 


' Иногда можно сказать, что, несмотря на некоторые имеющиеся различия, оба документа являются 
семантически экоиваленииымихотя это утверждение не вполне соответствует ДоИстТвительности. Поря- 
док следования элементов был изменен, и подобное обстоятельство является весьма существенным в 
ХМЕ. Поэтому в данном случае можно утверждать, что документы совпадают настолько, что отвечают 
всем требованиям относящегося к ним программного обеспечения, а также конечного пользователя. 
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щий доступ программиста к объектио-ориентированному интерфейсу. Начало об- 
работки ХМГ-кода во многих программах на языке Рей, располагающих соответ- 
ствующими возможностями, определяется с помощью анализатора ХМІ: : Рагѕег 
(либо другой подобной программы). По прошествии небольшого периода време- 
ни вся «черновая работа» по разбору ХМГ-кода поручается другим, ранее напи- 
санным модулям. Код, составленный программистами, определяет порядок пред- 
варительной и завершающей обработки. 


Пользуйтесь готовыми модулями 


К одной из сильных сторон Рег] можно отнести то, что этот язык поддерживается 
сообществом его сторонников во всем мире. Как только программисты на языке 
Ре! идентифицируют проблему и создают соответствующий модуль, нацеленный 
на ее решение, результат их деятельности становится достоянием мировой обще- 
ственности. Для этой цели предназначается сеть СРАМ. Основное преимущество 
в данном случае заключается в том, что если вы хотите создать какой-либо фраг- 
мент кода на языке Рег|, существует вероятность, что кто-либо создал его ранее, 
и в сети СРАМ можно найти соответствующий Ре!-модуль. 

Однако метод «коллективного творчества», примененный по отношению к столь 
«юной», популярной и нетрадиционной технологии, каковой является ХМГ, име- 
ет свои недостатки. К моменту первого «выхода на сцену» ХМІ в сети СРАМ су- 
ществовали различные Регі-модули, написанные различными программистами. По 
причине полной анархии все они образуют «нестройный хор», в число участников 
которого входят различные структуры и интерфейсы, ориентированные на дости- 
жение различных целей. 

Однако не падайте духом. Времена «анархии и беспорядка», относящиеся к 
1998 году, остались в прошлом. В настоящие время наблюдается некое подобие 
организации и стандартов. Причем инициатива исходит от сообщества Ре !/ХМГ, 
(о чем изначально было заявлено в списке рассылки ре-хт/, поддерживаемом Ас- 
уе {ае). Члены сообщества разрабатывали первые модули с целью создания тре- 
буемых инструментов. При этом они следовали правилам, установленным другими 
игроками в мире ХМГ. К числу этих «игроков» можно отнести стандарты синтакси- 
ческого анализа, ЗАХ и ПОМ, а также внедренные ХМГ-технологии, такие как 
ХРа 1. Позднее появились базовые анализаторы низкого уровня. Совсем недавно 
возникли интересные системы (такие как ХМС : ЅАХ), которые реализуют модель 
РММ на уровне Ре!|, отображенную в разрабатываемых стандартах!. 

Конечно, если вы желаете воспользоваться «бестолковыми» инструментами, 
пригодными лишь для выполнения черновой и быстрой работы, то всегда сможе- 
те это сделать. К числу таких инструментов можно отнести модуль ХМі : : 5ітр\е. 
Авторы книги приложат максимум стараний для того, чтобы помочь вам восполь- 
зоваться стандартизованными инструментами. После этого вам останется лишь 
запустить процесс обработки ХМГ-кода и не вмешиваться в происходящий 
процесс. 


1 Аббревиатура ОМІМ расшифровывается как «Оо Ма І Меап» («Делать то, что задумано»), это 
один из фундаментальных принципов, заложенных в основу Рег|. 
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Как правило, ХМГ-модули, находящиеся в сети СРАМ, удовлетворяют потребно- 
сти программистов на 90%. Конечно, оставшиеся 10% можно рассматривать как 
соотношение между ведущими специалистами вашей компании и «кандидатами 
на увольнение». Авторы книги намереваются оправдать те затраты, которые вы 
понесли в результате приобретения книги, путем демонстрации некоторых «ужас- 
ных» деталей, объясняющих порядок обработки в Рег! ХМГ-документов на самых 
низких уровнях (по сравнению с любым видом специализированной обработки 
текста, осуществляемой в Рег1). Для начала обратимся к некоторым «азбучным ис- 
тинам», которые следует учитывать в дальнейшем. 


Происхождение программы не имеетзначения 


К тому времени, когда часть ХМГ-кода, выполняющая анализ ХМГ-документов, 
приступает к его обработке, источник его происхождения не имеет особого значе- 
ния. Документ может быть получен с помощью локальной сети, загружен с базы 
данных либо считан с диска. Для анализатора важен только ХМГ-код и все, что с 
ним связано. 

Имейте в виду, что программа требует внимания к себе в целом. Например, если 
была написана программа, реализующая механизм ХМГ-КРС, лучше зпать поря- 
док использования протокола ТСР, который определяет выборку и отсылку через 
Интернет всех ХМГ-данных! Мы можем использовать эту программу для выпол- 
нения операций выборки и отсылки данных, однако до тех пор, пока конечный 
программный продукт является неизменным, так как пользователь будет испыты- 
вать потребность в чистом ХМГ-документе, который может обрабатываться ХМГ- 
процессором, лежащим в ядре программы. 


Все ХМ! -документы подобны сточки зрения структуры 


Независимо от цели и способа создания, при составлении любого ХМІ-документа 
должны учитываться одни и те же базовые правила форматирования: строго один 
корневой элемент, отсутствие перекрывающихся элементов, заключение всех атри- 
бутов в кавычки и т.д. Каждый компонент анализатора для ХМГ-процессора испы- 
тывает потребность в выполнении тех же самых операций, что и любой другой 
ХМГ-процессор. Это в свою очередь означает, что все процессоры могут совместно 
использовать общую базу. В программах на языке Ре, выполняющих обработку 
ХМГ-кода, обычно используются свободно распространяемые модули-анализаторы. 
Практика повторной реализации базовых ХМГ-процедур анализа не применяется. 

Более того, благодаря однодокументной природе ХМГ, процесс обработки кода 
превращается в приятный итеративный процесс, не требующий больших затрат 
времени. При этом каждый документ, посредством внешней сущности другого 
документа, испытывает «магическое превращение» в «просто другой элемент» в 
составе вызывающего процесса. В этом случае код, который образует первый до- 
кумент, может создавать«ткань» любой ссылки (либо какого-либо другого объек- 
та, к которому может иметь отношение ссылка), не требуя дополнительных уси- 
лий от программиста. 
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ХМЕ-приложения различаются своим назначением 


Любые ХМГ-приложения определяют смысл существования произвольного ХМІ- 
документа. Причем набор правил высшего уровня, которым следует произволь- 
ный ХМГ-документ, способствует достижению некоторых полезных целей. Эти 
правила могут определять: заполнение файла конфигурации, подготовку переда- 
чи данных в сети иливыполнение некоторых других действий. Смысл существова- 
ния ХМГ-приложений заключается не только в том, чтобы наполнять скромные 
документы «высшим смыслом их предназначения». Они также требуются для оп- 
ределения структуры создаваемых документов в соответствии с определенной спе- 
цификацией приложений. С помощью объявления ОТО облегчается достижение 
совместимости описанной выше структуры. Однако следует учитывать тот факт, 
что в распоряжении разработчика может не оказаться схемы формального под- 
тверждения, используемой при разработке приложений. Может возникнуть по- 
требность в создании некоторых правил проверки. Эти правила окажутся весьма 
полезными, например, в случае, когда требуется, чтобы ваши последователи (вклю- 
чая и вас самих две недели спустя) не «путались в дебрях» разработанной ранее 
программы. Потребуется также создать схему проверки, если необходимо будет 
позволить другим программистам создавать программы, обеспечивающие исполь- 
зование преимуществ языка ХМГ. 

Как правило, при реализации на практике большинства приемов составления 
ХМГ-кода, во главу угла ставится упомянутый выше дуализм «документ/прило- 
жение». В большинстве случаев разрабатываемое программное обеспечение будет 
включать разделы, учитывающие три перечисленных ниже факта: 


• ввод данных осуществляется с применением подходящего метода. В частно- 
сти может осуществляться «прослушивание» сетевого сокета либо считыва- 
ние файла с диска. Подобное поведение является весьма типичным и харак- 
терным для Рег: делайте все необходимое для получения данных; 


•  Перехваченные входные данные будут передаваться некоему типу ХМГ-про- 
цессора. Как правило, лучше всего воспользоваться одним из анализаторов, 
созданным и поддерживаемым сообществом разработчиков на Рег]. В каче- 
стве этих модулей может использоваться модуль ХМі : : 5імріе либо более 
сложные модули, которые будут рассмотрены ниже; 


• И наконец, обратите внимание на результат обработки процессором ХМГ- 
кода. Возможно, он будет продуцировать ХМГ-код (либо НТМГ-код), об- 
новлять базу данных либо отсылать электронное сообщение вашей матери. 
Этот пункт является определяющим при выполнении ХМГ-приложения: 
просто берется код ХМІ. и выполняется некая его обработка. В книге не бу- 
дут обсуждаться поистине безграничные возможности, открывающиеся в 
этом случае. Предмет рассмотрения составят тесные связи между ХМ [-про- 
цессором и остальными частями вашей программы. 


Особенности ХМЁ 


В этом разделе затрагиваются вопросы, составляющие предмет всей книги. Имен- 
но с ними связаны проблемы, возникающие при обработке ХМІ -документов. 
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Формальная корректность 


В ХМЕ имеется встроенная система контроля качества. Документ должен соот- 
ветствовать некоторому минимальному набору синтаксических правил, позволя- 
ющих соответствовать формальной корректности для ХМГ-кода. Большинство 
анализаторов не способны обрабатывать документ, который нарушает любое из 
этих правил, поэтому требуется убедиться в том, что произвольные входные дан- 
ные характеризуются приемлемым уровнем качества. 


Кодировки символов 


Жизнь в ХХІ веке требует уделять внимание таким вопросам, как применяемые 
кодировки символов. Безвозвратно ушли те дни, когда содержимое \уеБ-узловв Ин- 
‘тернете кодировалось с применением набора символов АЅСП. «Героем наших 
дней» стал Чи1со4е, па базе которого формируются все основные наборы симво- 
лов, применяемые в Сети. В ХМГ предполагается работа с символами Ошсоде, 
хотя существует множество способов для представления этой кодировки, вклю- 
чая наиболее часто используемую в Рег| кодировку Оп1соде, ОТЕ-8. Как правило, 
достаточно редко приходится задумываться о вопросах подобного рода, по нужно 
быть осведомленным относительно имеющихся возможностей. 


Пространства имен 


Не каждый может похвалиться тем, что работал с пространствами имен. Простран- 
ства имен производят разбиение кода па отдельные области, разделяя теги, раз- 
метки и объявления. В результате появляется возможность смешивать и сопос- 
тавлять различные типы документов. Идет ли речь об уравнениях в НТМГ-коде, 
либо о разметке в виде данных в Х5ГТ-коде, использование пространств имен яв- 
ляется оправданным. Имейте в виду, что поддержка пространств имен реализова- 
на в недавно разработанных модулях. 


Объявления 


По существу, объявления не входят в состав документа, а просто описывают его. 
Это следует принимать как данность и не стоит уделять этому вопросу повышен- 
ное внимание. Помните лишь о'том, что в документах часто применяются объяв- 
ления ОТО, а также включаются объявления таких объектов, как сущности и ат- 
рибуты. Следует учитывать это, с тем чтобы не «наломать дров» в дальнейшем. 


Сущности 


Сущности и взаимосвязи сущностей выглядят достаточно просто: они остаются в 
содержимом, которое вы, скорее всего еще не определили. Возможно, что содер- 
жимое находится в другом файле, либо включает символы, ввод которых вызыва- 
ет определенные затруднения. Иногда требуется разрешить ссылки, а иногда луч- 
ше воздержаться от этого. Норой анализатор выполняет просмотр объявлений, ав 
другое время он не заботится об этом. Сущности могут содержать другие сущнос- 
ти, причем глубина вложенности не ограничивается. В любом случае нужно конт- 
ролировать ситуацию во избежание возможных проблем в дальнейшем. 
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Служебные символы 


Согласно правилам, принятым в ХМГ, все то, что не является тегом разметки, отно- 
сится к разряду значащих символьных данных. Этот факт может привести к некото- 
рым неожиданным результатам. Например, не всегда можно определенно сказать, 
что происходит при обработке служебных символов. По умолчанию ХМІ -процес- 
сор сохраняет все символы — даже символы создания новых строк, которые можно 
включать после тегов с целью улучшения восприятия кода, либо символы пробелов, 
которые можно применять для создания отступов в тексте. Некоторые анализаторы 
иногда позволяют игнорировать пробелы, но в этом случае отсутствуют жестко ус- 
тановленные и простые правила. 


Заканчивая обзор языков Ре! и ХМГ, можно сделать вывод, что они превос- 
ходно дополняют друг друга. И хотя в процессе работы могут появляться так на- 
зываемые «ловушки», но благодаря наличию различных модулей, разработанных 
программистами, изучение возможностей Регі/ХМІ будет легким и приятным. 


Краткий курс ХМЕ 


Язык ХМІ. — результат длительной эволюции, в ходе которой происходил «есте- 
ственный отбор» лучших качеств, присущих языкам разметки предыдущего поко- 
ления. Процесс эволюционных изменений привел к качественному скачку, след- 
ствием которого стало объединение преимуществ обобщенного языка разметки 
ЅСМІ, простоты разметки свободной формы, атакже правил формальной коррек- 
тности. Однозначная структура и интуитивно понятный синтаксис значительно 
облегчают процесс обработки ХМГ-кода другими программами. 

На базе ХМІ. пользователь может создавать собственный язык разметки, луч- 
ше приспособленный для обработки различных данных. В частности, стандартные 
теги могут заменяться сконструированными пользователем элементами. При не- 
обходимости можно выполнить формализацию языка с помощью объявлений эле- 
ментов и атрибутов, указанных в определении типа документа (Ооситепі Туре 
ОезсирИоп, ОТО). 

Основные компоненты синтаксической структуры ХМГ будут следующими: 
сущности, комментарии, инструкции по обработке данных, атакже секции СРАТА. 
С их помощью выполняется группировка элементов и атрибутов в соответствии с 
различными пространствами имен, а также формирование словаря пользователь- 
ских документов. Так, например, атрибут хм1 : зрасе позволяет варьировать ве- 
личину пробелов в тексте. Это обстоятельство может играть решающую роль при 
разметке. когда восприятие кода человеком является столь же важным, как и кор- 
ректное форматирование. 

Поддержка и модификация документов значительно облегчается при исполь- 
зовании некоторых полезных технологий. Достоверность ХМТ-конструкций, ус- 
танавливаемая на основе канонической модели, проверяется с помощью схем и 
объявлений ОТО. Схемы предлагают пользователю богатый набор возможностей. 
В частности, с их помощью поддерживаются шаблоны на основе символьных дан- 
ных, а также обеспечивается улучшенный синтаксис модели содержимого. Язык 
ХЗЕТ выполняет преобразование документов в различные формы и может при- 
меняться при обработке ХМГ-документов. Причем этот способ обработки явля- 
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ется более простым, чем создание отдельной программы, хотя всякое правило 
имеет свои исключения. 

В следующих разделах главы вы найдете обзор возможности"! ХМІ., краткий 
исторический очерк, а также описание структуры и методов применения этого 
языка. 


> > 
ХМЕ: коэткий исторический оческ. 

В прежние годы обработка текста жестко привязывалась к аппаратным средствам, 
с помощью которых выполняется его отображение (мониторы). Сложное форма- 
тирование текста также напрямую зависело от применяемых принтеров. 

В качестве примера рассмотрим язык (гой. Этот язык форматирования ‘текста в 
свое время был весьма популярным и включался в состав большинства дистрибу- 
тивов Отих. Он позволял выполнять высококачественное форматирование текста, 
которое ранее было возможным только с применением полиграфических машин. 

Текст, обрабатываемый редактором (гой, представлял собой смесь инструкций 
и данных. В качестве инструкций применялись сочетания символов, предваряемые 
обратной косой чертой. Так, например, набор символов \ ЕТ изменял текущий стиль 
шрифта па курсив. При отсутствии символа обратной косой черты оставшиеся сим- 
волы воспринимались в качестве данных. Подобный смешанный набор инструкций 
и данных именуется разметкой. 

Язык {тоНобладает и другими, более «топкими» возможностями. Так, например, 
инструкция .уѕ 18р указывает программе-форматтеру на необходимость установки 
межстрочного интервала, равного 18-ти пунктам. Если не учитывать эстетические 
соображепия, довольно затруднительно указать назначение да иного интервала. Мож- 
но лишь отметить, что подобный интервал определяет специфичную инструкцию 
для процессора, которая не может быть интерпретирована каким-либо другим обра- 
зом. Поэтому такая инструкция может быть полезной только при подготовке доку- 
мента к печати с применением определенного стиля. Если же в дальнейшем потре- 
буется выполнить какие-либо изменения в документе, лучше ее не использовать. 

А теперь представите себе ситуацию, когда возможности (гоЙйиспользуются при 
подготовке книги к изданию, причем каждый новый термин выделяется полужир- 
ным стилем. В этом случае документ может содержат!) несколько тысяч инструк- 
ций, определяющих полужирный стиль текста. Вы испытываете чувство глубоко- 
го удовлетворения от проделанной работы и уже собираетесь выводить макет книги 
па печать, как вдруг все изменяется. Сотрудник отдела верстки сообщает вам пре- 
неприятную новость об изменении макета книга, вследствие чего все новые тер- 
мины теперь должны выделяться курсивом. В результате появляется серьезная 
проблема, заключающаяся в необходимости преобразования каждой инструкции, 
определяющей полужирный стиль текста, в инструкцию, задающую курсивный 
стиль текста. 

Первое, что приходит в голову в подобной ситуации, — открыть документ в 
окне редактора и выполнить операцию поиска и замены. Но, к своему ужасу, вы 
обнаруживаете, что полужирным стилем выделены не только новые термины. Этот 
стиль также применялся для выделений определенных мест в тексте, а также для 
обозначения наименований. В результате выполнения глобальной замены подоб- 
ные выделения могут быть утеряны, причем самым непредсказуемым образом. 
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Поэтому возможно лишь последовательное изменение инструкций, на выполне- 
ние которого может потребоваться не один рабочий день. 

Независимо от степени «разумности» языка форматирования, подобного цой, воз- 
можно повторение одной итой же проблемы. Причинаэтого заключается в том, что этот 
язык является репрезентативным. В репрезентативном языке разметки описание со- 
держимого производится с применением терминов, определяющих форматирование 
текста. В языке іго#определяются детали, характеризующие шрифты и интервалы, но 
не указывается содержательная информация. В результате применения редактора (гой 
сужается спектр возможностей по дальнейшей обработке документа. Например, доволь- 
но затруднительной будет организация поиска с переходом к последнему параграфу 
третьего раздела документа. Вообще говоря, репрезентативная разметка затрудняет 
выполнение любой задачи, за исключением форматирования документов с целью их 
дальнейшего вывода на печать (именно для этого она и применяется в первую очередь). 


Редактор гой может характеризоваться как средство выполнения целевого форма- 
тирования. Причем это средство не является универсальным, а может лишь приме- 
няться в ограниченных масштабах. Какой же формат может применяться в подобной 
ситуации? Будет ли использован «исходный» формат, который на самом деле не оп- 
ределяет какого-либо форматирования, а просто производит упаковку данных с по- 
мощью некоторого распространенного метода? Подобные вопросы стали возникать в 
конце 60-х годов прошлого столетия. Именно в это время была разработана концеп- 
ция обобщенного кодирования. Суть этой концепции заключалась в разметке содержи- 
мого с помощью стиля отличного от репрезентативного. При этом, вместо инструк- 
ций но форматированию предусматривалось применение описательных тегов. 


Первый практический проект в этой области был разработан в Ассоциации по коор- 
динированию разработок в области графики (Старћіс Соштипканоп$ Аѕѕосіайоп, ССА). 
Этот проект назывался СепСоае. В рамках проекта были разработаны методы кодиро- 
вания документов с применением обобщенных тегов, а также сборки документов на 
основе нескольких элементов, являющихся «предшественниками» гипертекста. Набазе 
этой концепции и под руководством фирмы ІВМ был создан обобщенный язык размет- 
ки (Сепега!теа МагКар Гапепаге, СМІ). Почетное право разработки этого языка при- 
надлежало Чарльзу Голдфарбу (Сћапеѕ Со! го), Эдварду Мошеру (Едмага Моѕћһег) и 
Реймонду Лори (Каутопа 1.огіе)'. В результате завершения этой работы фирма ІВМ 
получила возможность выполнять операции по редактированию, просмотру, поиску и 
печати одного и того же исходного документа с помощью различных программ. Пре- 
имущества подобного решения становятся еще более очевидными в случае, когда объем 
документации той или иной компании приближается к миллионам страниц в год. 


Голдфарб руководил группой по разработке стандартов в Американском нацио- 
нальном институте по разработке стандартов (Атегісап МаНопа| Ѕ(апаагаѕ шзийке, 
АМ№І), прилагая все усилия для популяризации возможностей языка СМІ. На осно- 
ве проектов СМТ. ибепСоде комитет А№ъ№І разработал стандартный обобщенный язык 
разметки (Ѕіапаага Сепегаітеа МагКир Гапеџағве, 5О МГ). Сразу же после разработ- 
ки этот язык был адаптирован Министерством обороны США (0.8 Юерагітепї оЁ 
"Реѓепѕе) и Управлением по контролю внутренних доходов (иегпа| Веуепие Ѕегуісе). 
Благодаря столь серьезному покровительству язык был обречен на неминуемый 
успех. В 1986 году он сертифицируется 180 в качестве международного стандарта. 


‘Интересно, что инициалы разработчиков совпадают с названием языка разметки (СМІ) 
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С того времени па базе этого стандарта было разработано множество инструменталь- 
ных средств и пакетов, предназначенных для выполнения обработки текста. 

Появление обобщенного кодирования в корне изменило понимание смысла 
цифрового содержимого, которос может быть описано путем указания его сути, 
а не способа отображения на экране. Так, следующий код скорее имеет отношение 
к базе данных, чем к файлу текстового процессора: 


<регѕоппеі-гесога> 
<пате> 
<#іГ5Е>Кіа</#іг5ї> 
<1аѕі>Воок< Лаѕї> 
</паме> 
<рігіһдау> 
<уеаг>21969</уеаг> 
<топіћ>4</топЁћ> 
<дау>23</аау> 
</Бігіһаау> 
</регѕоппе1 -гесога> 


Обратите внимание на отсутствие репрезентативной информации. Вы можете 
форматировать отображаемые данные произвольным образом: имя-фамилия, фа- 
милия-имя либо разделять их запятой. Даты могут отображаться в американском 
(4/23/1969) либо европейском (23/4/1969) форматах. Для выполнения последне- 
го действия потребуется просто выбрать порядок следования элементов <топіћ> 
и <дау >. Причем в документе не задается жестко использование подобных элемен- 
тов, в силу чего возможны некоторые вариации. 

Несмотря на столь выдающиеся возможности, 5С МГ. никогда не пользовался 
популярностью в небольших фирмах, занимающихся разработкой программного 
обеспечения. Прерогатива его применения в первую очередь принадлежит крупным 
компаниям, что во многом объясняется дороговизной и объемностью программного 
обеспечения. Применение этого языка потребует наличие команды разработчиков, 
выполняющих работы по установке и конфигурированию среды разработки $5С МГ. 
Также использование 56 МІ связано с бюрократией, различного рода конфликтами 
и большим потреблением ресурсов. В силу перечисленных причин, ЗС МИ в его ис- 
ходной форме является малопригодным в современных условиях. 

В связи с вышесказанным у читателя может возникнуть резонный вопрос: «А что 
же можно сказать относительно НТМІ? Не правда ли, что НТМІ — это подмно- 
жество ЗС МГ?». Язык разметки НТМІ, который является «звездой» Интернета, 
а также прародителем гипертекста и «рабочей лошадкой» Сети, на самом деле — 
приложение 5С МГ. Под словом «подмножество» в данном случае подразумева- 
ется то, что язык разметки построен на базе правил языка $С МГ. На самом деле 
ЗОМЕ не является языком разметки, а представляет собой инструментарий, при- 
меняемый для создания пользовательских описательных языков разметки. На основе 
ЅСМІ разработаны другие языки разметки, например, языки кодирования техни- 
ческой документации, ІКЅ-формы и некоторые другие языки. 

Несмотря на большую популярность, языку НТМЕ присущи некоторые огра- 
ничения. Он является компактным, но в то же время в недостаточной степени опи- 
сательным языком. По своим возможностям этот язык скорее напоминает ой, 
чем росВоок либо другие $6 МГ-приложения. Например, в состав НТМЕ вклю- 
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чены теги <1> и <5>, с помощью которых производится изменение стиля шрифта 
без объяснения причин этого действия. По причине ограниченности возможнос- 
тей НТМЕ и присущей ему частичной репрезентативности, вряд ли можно поста- 
вить его в один ряд с $СМІ. При использовании НТМІ. возможно лишь отобра- 
жение содержимого в каком-либо местоположении, а возможности по проведению 
дополнительной обработки весьма ограничены. 

В результате разработчики стандартов решили предпринять еще одну попытку, 
заключающуюся в достижении компромисса между описательными возможностя- 
ми 5СМЕ и простотой НТМГ. Плодом этих усилий стал расширяемый язык раз- 
метки (Ежеп$е Магкир Гапгиазе, ХМІ). Литера 'Х' представляет собой сокраще- 
ние от слова «ежепт$е» (расширяемый). Именно в наименовании заключается 
первое очевидное отличие от НТМГ. Второе и более важное отличие состоит в том, 
что ХМГ-документы не ограничены «прокрустовым ложем» набора НТМГ-тегов. 
Вы можете расширять пространство имен тегов, делая его описательным в той мере, 
в какой пожелаете. Здесь проявляется совместимость ХМЕ с $С МГ. 

С момента своего возникновения, ХМІ достиг ошеломляющего успеха. В ходе 
эволюции этого языка появились связанные с ним программные продукты: ХМГ- 
ВРС, ХНТМІ,, $УС и росВоок ХМГ. В комплект поставки ХМІ. включены неко- 
торые компоненты, в том числе ХЅІ. (выполнение операций по форматированию), 
ХЅІТ (выполнение преобразований), ХРа (выполнение поиска) и ХМик (вы- 
полнение компоновки). Большинство стандартов в этой области было разработа- 
но под руководством консорциума (Жог1а УЛае \Меь Сопѕогііит, \ ЗС). Членами 
этой уважаемой организации являются Місгоѕоћ, Ѕип, ІВМ, а также многие науч- 
ные и общественные организации. 

Основной задачей МЗС являются исследования и поощрение развития новых 
технологий, применяемых в Интернете. Подобное утверждение может показаться 
абстрактным, поэтому если вы нуждаетесь в более конкретной информации, обра- 
титесь на \е-узел һір://ууу.№3.0т0/. Консорциум МЗС не занимается разработ- 
кой, контролированием либо лицензированием стандартов. Скорее он дает реко- 
мендации, к которым следует прислушиваться разработчикам, но которые вовсе 
необязательны для выполнения‘. 

В любом случае применяемая система остается в достаточной степени откры- 
той, чтобы допустить возникновение конструктивных разногласий. К разногласи- 
ям подобного рода можно отнести недавние дискуссии и обсуждения, порожден- 
ные стандартом МЗС, именуемым ХМІ. Ѕсһета. Этот случай более подробно будет 
рассмотрен в главе 3. Он является достаточно серьезным, но в то же время не сле- 
дует преувеличивать связанную с ним возможную опасность. Отметим, что реко- 
мендации консорциума МЗС всегда доступны широкой общественности. 

С того времени, как язык ХМІ, превратился в универсальное средство обработ- 
ки данных, навыками работы с ним должны обладать все меб -программисты. Остав- 
шаяся часть главы представляет собой краткое введение в курс по языку ХМГ. 


' Если такая авторитетная организация, как МЗС, дает какие-либо рекомендации, они часто приоб- 
ретают силу закона; многие разработчики начинают следовать рекомендациям сразу же после их опуб- 
ликования. Оставшейся части разработчиков также стоит придерживаться требований стандарта в слу- 
час, если они хотят обеспечить совместимость своих программ с разработанным ранее программным 
обеспечением. 
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Любой язык разметки обеспечивает метод встраивания инструкций в структуру дан- 
пых. Благодаря этому облегчается процесс обработки данных компьютерными про- 
граммами. В большинстве схем разметки, реализуемых я языках (гой, ТеХ и НТМЕ, 
предусмотрены инструкции, оптимизированные с учетом выполнения какой-либо 
одной задачи (например, форматирование документа с целью его вывода на принтер 
либо отображения на экране монитора). Подобные языки основываются на репрезен- 
тативном описании данных, предусматривающем контроль гарнитуры, цвета и разме- 
ра шрифта, либо каких-либо других свойств, специфичных для данного шрифта. Хотя 
результатом применения такой разметки могут явиться прекрасно отформатирован- 
ные документы, не стоит возлагать на нее слишком большие надежды. Ведь в этом 
случае вы можете навсегда «оказаться в плену» у одного формата, поскольку приме- 
нение данных в других целях, возможно, будет весьма затруднительным. 


Подобные проблемы предопределили появление ХМГ. Этот обобщен] пыйязык раз- 
метки описывает данные в соответствии с их структурой и предназначением. Репре- 
зентативные сведения хранятся в специально выделенном местоположении (напри- 
мер, в таблице стилей). Благодаря функциональному описанию частей документа 
возможна его обработка с помощью разных инструментальных средств. Подобный до- 
кумент носитуниверсальный характер и может применяться в самых различных целях. 

А теперь приступим к рассмотрению базовых компонентов языка ХМІ. Ключе- 
вым компонентом ХМГ является элемент. По определению, элементами называ- 
ются изолированные области данных, которые уникальны для данного документа. 
В качестве примера можно рассмотреть обычную книгу, состоящую из введения, глав, 
приложений и предметного указателя. Каждый из разделов книги маркируется в 
качествс уникального ХМГ-документа. В свою очередь, элементы могут разбиваться 
на подэлементы (в любой книге есть названия глав, параграфы, примеры и отдель- 
ные разделы). Подобный процесс разбиения может включать несколько этапов (па- 
раграф включает такие элементы, как выделенный текст, цитаты либо гиперссылки). 


Элементы выполняют функцию связывания меток и других свойств с данными. 
Каждому элементу сопоставлено имя (либо тип элемента), указывающее па его 
предназначение в документе. Элементу, выполняющему роль главы книги, может 
присваиваться имя «глава» (либо «гл» — в данном случае вы свободны в выборе). 
Также элемент может включать и другую информацию, например, пару «имя-зна- 
чение», именуемую атрибутом. Сочетание типов и атрибутов элемента является 
уникальным отличительным признаком того либо иного элемента. 


Листинг 2.1 представляет типичный ХМГ-код. 


Листинг 2.1. Фрагмент ХМЕ-кода 


<1151 14="ег1К$-{040-47"> 

<їіїЛе>Тһіпеѕ Со ро Тб1$ Меек</е1Е1е> 

<ігет>с1еап е адиагтимт</1{ет> 

<1{ет>том ће Тамп</1{ет> 

<ібет ргіогіїу=" ітрогїіапї" >5ауе ће мһа1еѕ</іїет> 
</11$51> 


Вы, наверное, уже догадались, что в примере определяется перечень задач, со- 
стоящий из трех элементов и заголовка. Каждый, кто когда-нибудь работал с 


НТМІ-кодом, сразу же узнает признаки разметки. Текстовые фрагменты, заклю- 
ченные в угловые скобки ("<" и ">"), именуются тегами. В данном случае теги — 
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это разделители между элементами. Для каждого непустого элемента требуется 
указание начального и конечного тега, причем каждый тег содержит метку типа 
элемента. Начальный тег может дополнительно определять количество атрибутов 
(пары «имя-значение», такие как ргіогі їу = "ітрогѓапі"). Как видите, разметка 
является достаточно «прозрачной» и однозначной даже на первый взгляд. 

На самом деле очень важным является то, что подобная разметка может легко 
восприниматься компьютерными программами. Разработчики языка ХМІ хорошо 
потрудились над тем, чтобы ХМТ-документ мог легко обрабатываться всеми ХМІ- 
процессорами, независимо от его содержимого либо типов применяемых тегов. Код 
такого документа однозначен, конечно, если придерживаться синтаксических пра- 
вил. В результате значительно упрощается процесс обработки, поскольку не воз- 
никает ситуаций, требующих включения дополнительного кода. 

А теперь рассмотрим НТМІ-код с точки зрения его первоначального опреде- 
ления (в качестве $6 МІ -приложения, прародителя ХМГ)'. При работе с некото- 
рыми элементами можно не указывать конечный тег, поскольку, как правило, на 
основе содержимого можно заключить, где завершается элемент. Несмотря на это, 
за создание достаточно устойчивого кода, выполняющего обработку неоднознач- 
ных ситуаций, приходится платить. Плата, понссенная в этом случае, заключается 
в избыточной сложности и неточном выволе, формируемом на основе плохих ги- 
потез. Попробуйте представить, что булет в случае, если тот же самый процессор 
может обрабатывать элемент любого типа, а не только НТМІ -элементы. Обоб- 
щенные ХМГ-процессоры лишены возможности предсказания расположения от- 
дельных элементов. Поэтому такие неоднозначные ситуации, как отсутствие за- 
вершающего тега, могут привести к появлению проблем. 


ХМГ-код может быть представлен в виде диаграммы, пазывасмой деревом. По- 
добная структура знакома многим программистам. В верхней части дерева (ин- 
формационные деревья растут в направлении «сверху-вниз») находится корневой 
элемент. Элементы, расположенные ниже, образуют ветви дерева. Каждый эле- 
мент может содержать другие элементы, относящиеся к другим уровням, и так до 
тех пор, пока не будет достигнута нижняя часть — «листья» дерева. Листья образу- 
ются либо данными (текст), либо пустыми элементами. Элемент на каждом уров- 
не может рассматриваться в качестве кория своего собственного дерева (здесь мож- 
но воспользоваться термином иоддерево). Диаграмма дерева из предыдущего 
примера приводится на рис. 2.1. 


Помимо «древесной» аналогии можно рассмотреть генеалогическую структу- 
ру ХМЕ. В этой структуре содержимое элементов (данные и элементы) рассмат- 
ривается в качестве потомков этих элементов. Элементы, содержащие другие эле- 
менты, называются предками. В рассмотренном ранее примере перечня каждый 
элемент <іїет> является потомком одного и того же предка, элемента < 11$1>, атак- 
же близнецом других элементов. Термины, связанные с деревьями и семейными 
взаимоотношениями, будут использоваться для дальнейшего описания взаимосвя- 
зей между элементами. 


`В настоящее время появился стандартизованный ХМІ.-варпапт НТМІ, под названием ХНТМГ.. 
В связи с этим многие разработчики, имеющие дело с НТМГ, намерены включить поддержку грядущих 
ХМГ-инструментов. При работе с ХМІ различные типы разметки могут обрабатываться одними и теми 
же программами (редакторы, корректоры синтаксиса либо форматтеры). В скором времени разработка 
меБ-сайтов наоснове НТМТ.будет производиться с. помощью таких ХМІ -языков, как ОосВооки Май МІ. 
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"ейк®-юсю-47" а а ыы (рпіогіу) В "зауе {Ве чва!ез" 


"Гтрогтапу" 


Рис.2.1. Перечень задач, представленный в виде структуры дерева 


Пространства имен 


Элементы и атрибуты могут распределяться по группам, именуемым иространства- 
ми имен. Элементы и пространства имен связаны между собой примерно так же, как 
фамилия связана с конкретным человеком. Например, у троих ваших знакомых 
может быть имя Петр, но их фамилии будут различными. Практическое приложе- 
ние этой концепции можно найти в листинге 2.2. 


Листинг 2.2. Пример документа, включающего пространства имен 


<? меѓѕіоп="1.0"2?> 
<герогі> 
<Е1Е1е>Е1$6 апа Вісус1еѕ: А Соппесїіоп? </їіїЛе> 
<рага>І һауе Ғошпа а зогргіѕіпо ге1абіопећір 
ОЕ #ѕһ бо Юрісус1еѕ, ехргеѕѕеа Бу (Бе еаџаііоп 
<есџасіопьЕ = Кр+п</едоаёіоп>. Те акарб Бе1ом і11џоѕігаёеѕ 
спе даба согуе оЁ пу ехрегітепї: </рага> 
<сһаге хт1пз: вгарһ= "Һр: //таёһѕіи##. сот/аіаѕ/ сһагімі/" > 
<ргарћ:; аітепѕіоп> 
<ргарћ: ахіѕ>#іѕһ</ргарһ:ахіѕ> 
<агарһ: ѕсагё>80</окарһ: ѕёагі> 
<агарһ:епа>99</агарһ:епа> 
<Егарћ: 1птегуа1 >1</5гарн : їіпїегуа1> 
</вгарн : 91теп$1оп> 
<вгарн : а1меп$10п> 
<вгарп: ах1$>61сус1е</вгарн : ах1$> 
<Бгарћ: зтагЕ>0</згарн : зфагт> 
<агарһ:епа>1000</охсарһ:епа> 
<вгарн : іпіегуа1>50</ргарһ: їпёегуа1> 
</вгарн: даітепѕіоп> 
<ргарћ: едиаїіоп>#іѕћ=0.01*6їісус1е+81.4</ргарһ: едиаїіоп> 
</ вгарћ:сһагї> 
</терогё> 


В примере рассматриваются два пространства имен. Первое — задано по умол- 
чанию, причем в именах его элементов и атрибутов отсутствует двоеточие. Эле- 
менты, в именах которых содержится часть ргарћһ:, относятся к пространству имен 
«сһагіті» (вымышленное пространство имен, в области которого рисуется график). 
Часть элементов эгарП: образует префикс пространства имен. В результате вклю- 
чения префикса создается уточняющее имя. Элементы «едиаї і оп> полностью от- 
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личаются друг от друга, поскольку играют в документе различные роли. Первый 
из элементов, находящийся в заданном по умолчанию пространстве имен, исполь- 
зуется для форматирования математического уравнения. Второй элемент, относя- 
щийся к пространству имен графика, используется графической программой для 
рисования кривых линий. 

Пространство имен всегда определяется элементом, включающим область при- 
менения данного пространства. Сам процесс определения выполняется с помощью 
атрибутавформатехтіпѕ:лрефикс= ОКЫ. Здесьвкачествепараметрапрефиксможет 
использоваться префикс пространства имен (в рассматриваемом случае — вгарп: ). 
Параметр (КЁ представляет собой уникальный идентификатор, имеющий фор- 
мат ОВГ-ссылки либо другого идентификатора ресурса. Пространство имен не рас- 
познается за пределами области действия элемента. 

Помимо поддержки двух типов элементов с одинаковыми именами либо типов 
атрибутов, пространства имен выполняют другие важные функции. Одна из фун- 
кций заключается в облегчении форматирования документов средствами ХМГ- 
процессора. Так, иногда изменения в пространстве имен могут свидетельствовать 
о том, что программа-форматтер, заданная по умолчанию, будет заменена прило- 
жением, предназначенным для форматирования специфических данных (напри- 
мер, графиков). В других случаях пространство имен инициирует толкование ин- 
струкций разметки в качестве метаразметки (в случае с ХЅІ7). 

Несмотря на очевидную пользу, пространства имен могут вызывать опреде- 
ленные проблемы. Позднее будет продемонстрировано, что пространства имен 
могут содержать объявления, ограничивающие применяемые типы элементов ко- 
нечным набором. При использовании объявлений ОТО применение пространств 
имен вызывает затруднения. Это связано с отсутствием специального средства, 
предназначенного для определения элементов и атрибутов, находящихся в про- 
странстве имен (помимо тех, которые заданы по умолчанию). Причем эти объек- 
ты определяются в соответствии с неким другим ХМГ-приложением. Частичная 
причина подобных затруднений кроется в том, что пространства имен появились 
в ХМЕ значительно позднее, чем формат объявлений ОТО (возникновение по- 
следнего датируется эпохой господства $СМТ.). Поэтому иногда пространства 
имен могут быть несовместимыми с некоторыми объявлениями ОТО. На сегод- 
няшний день эта проблема остается нерешенной, хотя и предпринимаются опре- 
деленные попытки в этом направлении. 

В главе 10 рассматриваются некоторые практические вопросы, возникающие 
при работе с пространствами имен. 


Интервалы 


Вы, наверное, уже обратили внимание па то, что во всех примерах книги использу- 
ются элементы отступа и пробелы, улучшающие восприятие текста читателями. 
Подобный прием является весьма разумным, если постоянно приходится редак- 
тировать либо проверять ХМІ -код. Однако в некоторых случаях применение ин- 
тервалов может способствовать появлению нежелательных пробелов при печати. 
Поскольку правилами ХМГ-языка не предусмотрено формулирование гипотез, 
связанных с данными, лишние пробелы автоматически не устраняются. 
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Существует решение, позволяющее сделать ХМГ-процессор «умнее». Некото- 
рые анализаторы могут определять, следует ли пропускать пробелы, в ходе выпол- 
нения обработки кода!. На основе объявления ОТО они могут определять пробелы, 
добавленные с целью улучшения восприятия кода при чтении, и не являющиеся 
частью содержимого. Также можно настроить процессор на работу с определенным 
языком разметки. В результате процесса обучения процессор будет различным о0б- 
разом трактовать некоторые элементы, имеющие отношение к интервалам. 

Если ни одна из указанных возможностей не решает проблему, возможно при- 
менение инструкций для ХМГ-процессора, предотвращающих удаление пробелов. 
Зарезервированный атрибут хт\ : зрасе может применяться любым элементом. 
Этот атрибут определяет, следует ли удалять пробел либо оставить его неизмен- 
ным”. Ниже приводится соответствующий пример: 


<аддгеѕѕ-1аре1 хш1: зрасе= ' ргезегуе' >246 Магѕһћте110и Ауе. 
$1 итбегу111е, МА 
02149</аадгеѕѕ-Іаре1> 


Здесь символы, определяющие перенос строки адреса, сохранены с целью даль- 
нейшей обработки. Другим значением атрибута хт1 : зрасе может быть "Чефаи1{". 
В этом случае ХМГ-процессору предоставляется право выбора дальнейших дей- 
ствий, предпринимаемых по отношению к дополнительным пробелам. 


Сущности 


Дополнительные удобства для разработчиков ХМГ-документов обеспечиваются 
с помощью другого свойства, именуемого сущностью. Это свойство может оказать- 
ся полезным в случае, если требуется контейнер для текста либо разметки, обыч- 
ный ввод которых в силу различных причин затруднен. При этом часть ХМГ-кода 
размещается за пределами документа’, для связи фрагмента кода со всем докумен- 
том используется обгектная ссылка. ХМГ-процессор должен подставлять вместо 
объектных ссылок текст на этапе синтаксического разбора. Поэтому каждая сущ- 
ность, на которую указывает ссылка, должна быть объявлена. В результате про- 
цессор получает возможность разрешения ссылок. 


Сущности объявляются в обзявлении типа документа (Боситеп! Туре Бесага- 
Поп, ОТР). Этот объект состоит из двух частей. Внутреннее подмножество являет- 
ся составной частью документа, а внешнее подмножество находится в другом до- 
кументе. (Довольно часто внешнее подмножество называется «ОТО», а внутреннее 
подмножество сохраняет свое имя, несмотря на то, что оба подмножества образу- 
ют объявление ОТР в целом.) В любом случае метод, применяемый для объявле- 
ния сущностей, будет тем же самым. Практическое применение этого свойства де- 
монстрируется в листинге 2.3. 


' Анализатор является специализированным ХМ1.-обработчиком, выполняющим предвари- 
тельный разбор документа. Различным анализаторам присуши разные уровни «интеллекта», про- 
являющегося в процессе интерпретации ХМІ.-кода. Этот вопрос более подробно будет рассматри- 
ваться в главе 3. 

? Префикс «хи говорит о наличии признака резервирования. Значение и области применения 
элементов и атрибутов с подобным префиксом определяются в ХМГ-стандарте. 

5 На самом деле весь документ можно рассматривать в качестве одной сущности, именуемой сущно- 
стью документа. Однако термин «сущность» обычно применяется для обозначения части документа. 
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Листинг 2.3. Документ, содержащий определения сущностей 
<! ВОСТУРЕ тето 
ЭТЕМ "/хт1 -445/тето. да" 


<ІЕМТІТҮ сотрапупате "М/у Мопка'ѕ Спосо={е Расфогу"> 
<ІЕМТІТҮ ҺеаІїһрІап ЭТЕМ "һр .їіхї"> 


]> 
<тето > 
<{о>АП Оотра-1оотраѕ</ї0> 
<рага> 
&сотрапупате; Ваз а пем омпег апа СЕО, Сһапіе Вискеї. Ѕіпсе 
оиг пате, &сотрапупаљме;, һаѕ сопѕіаегаріе бгапа гесодптИ!оп, 
іһе боага һаѕ десіаеа пої їо сһапде ії. Номемег, аї Спагйе'$ 
геаиеѕї, ме мії Бе сһаподіпо оиг һеаіїһсаге ргоміаег їо ће 
гпоге сотргеһепѕіуе &0итїі; трасаге, мһісһ һаѕ рейег Ғасі1іїіеѕ 
Тог '_оотраѕ (їехі оғ ће ріІап їо оом). Тпапк уои #ог могкіпо 
аї &сотрапупаме; ! 
</рага> 
&һеа1їһр1ап; 
</тето> 


Рассмотрим данный пример подробнее. В первых строках содержится объяв- 
ление ОТО, представляющее собой специальную инструкцию разметки, кото- 
рая включает большое количество важных данных, а так же определяет внутрен- 
нее подмножество и путь к внешнему подмножеству. Как и в случае любой другой 
декларативной разметки (при определении чего-либо нового), код начинается 
знаком восклицания, за которым следует ключевое слово, БОСТУРЕ. После клю- 
чевого слова указывается имя элемента, который будет использован для включе- 
ния документа. Этот элемент называется корневым элементом либо элементом 
документа. Затем указывается путь к внешнему подмножеству, ЅҮЅТЕМ "/хп1- 
9(94$/тето.4{4", а также объявления внутреннего подмножества, заключенные 
в квадратные скобки (| ]). 


Во внешнем подмножестве находятся объявления, которые могут применяться 
во многих документах. Естественно, что это множество находится в другом файле. 
Внутреннее подмножество идеально для размещения объявлений, являющихся ло- 
кальными для данного документа. Они могут отменять объявления, содержащие- 
ся во внешнем подмножестве, либо расширять их набор. В примере две сущности 
объявлены во внутреннем подмножестве. Объявление сущностей содержит два па- 
раметра: имя сущности и текст замены. В данном случае сущности называются 
сотрапупате и ћҺеа1їһріІап. 

Упомянутые объекты имеют отношение к общим сущностям. Они отличаются 
от других видов сущностей, поскольку объявлены самим разработчиком. Текст за- 
мены, применяемый в этом случае, может находиться в двух разных местах. Первое 
объявление сущности определяет текст внутри самого объявления. Второе объявле- 
ние указывает другой файл, в котором находится текст. Здесь применяется систем- 
ный идентификатор, указывающий местоположение файлов. Этот идентификатор 
напоминает гиперссылку 7 КІ., применяемую \еб-браузером при поиске загружае- 
мых страниц. В этом случае файл включается ХМГ-процессором в исходном виде в 
любом месте, на которое ссылается так называемая внешняя сущность. 

В ходе внимательного изучения примера нетрудно заметить инструкции раз- 
метки, выраженные в виде &пате,. Знак амперсанда (&) свидетельствует о нали- 
чии объектной ссылки, параметр плате определяет имя сущности, для которой ус- 
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танавливается ссылка. Одна и та же ссылка может использоваться повторно, бла- 
годаря чему обеспечивается удобный метод включения повторяющетося текста 
либо разметки (в качестве примера можно рассматривать сущность сотрапупате). 

Сущность может включать разметку (а также текст), как это было в случае с 
ћеа1їһр1ап (фактически мы не знаем, что включается, так как сущность находит- 
ся в другом файле, но поскольку она может выступать в качестве большого доку- 
мента, то может включать как текст, так и разметку). Кроме того, могут включать- 
ся другие сущности, причем допускается произвольный уровень вложенности. 
Единственное ограпичение заключается в том, что сущности не могут содержать 
сами себя. Благодаря этому предотвращается замыкающее определение, которое 
не может быть сконструировано с помощью ХМГ-процессора. Использование ре- 
курсивной логики допускается некоторыми ХМГ-технологиями, такими как ХЅІТ, 
по не стоит применять объектные ссылки для формирования кода, включающего 
круговые ссылки. Подобный код неприемлем для многих анализаторов. 

И наконец, объявляется объектная ссылка, &0итм1 ; Эта ссылка включается в 
любом месте внешнего подмножества и служит для отображения символов, кото- 
рые не могут быть визуализированы устаревшими текстовыми редакторами. В дан- 
ном случае требуется отображать заглавную литеру ' О ' со знаком умляута: 0. По- 
скольку сущность, для которой устанавливается ссылка, состоит из одного символа, 
в роли ссылки будет применяться псевдоним, а не указатель. Обычный способ, при- 
меняемый для обработки «экзотических» символов (встроенный в ХМГ-спе- 
цификацию), предусматривает использование числовой символьной сущности. 
В этом случае она выражается в виде символов &#000С. Набор символов 9х00рС 
представляет собой шестнадцатеричный эквивалент числа 220, определяющего по- 
ложение символа Ц в таблице Олисо4е (набор символов, применяемый в ХМГ, 
который рассматривается в следующей главе). 

Поскольку сокращенное описательное имя, такое как Чит1, в общем случае про- 
ше для запоминания, чем набор символов 000С, многие программисты на ХМІ.раз- 
мещают подобные типы псевдонимов в объявлениях ОТР для своих документов: 


<!ЕМТТТУ % Ил &#х000С;> 


В ХМГ распознаются лишь пять встроенных именованных объектных ссылок, 
показанных в табл. 2.1. На самом деле эти объекты не являются ссылками в пол- 
ном понимании этого слова, а представляют собой наборы символов, имеющих спе- 
циальное значение для ХМГ. 


Таблица 2.1 Объектные ссылки в ХМ. 


Символ Сущность 
< &(; 

> &91; 

& &атр; 

а &диоѓ; 

: &ароз; 


Лишь только две объектных ссылки применяются повсеместно в любом ХМГ- 
документе: &1ї и &атр ;. Теги элементов и объектные ссылки могут отображаться 
в любом месте документа. Например, никакой анализатор не может предположить, 
какую функцию выполняет в данный момент символ <, — функцию математиче- 
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ского символа «меньше» либо роль ХМГ-маркера. Обычно анализатор выбирает 
последний вариант и сообщает о некорректно сформатированном документе в слу- 
чае, если на самом деле мы имеем дело со знаком «меньше». 


Наборы символов, кодировки и Упсоае 


Компьютеры воспринимают текст в качестве набора положительных целых чи- 
сел, соответствующих наборам символов. В свою очередь, наборы символов — 
это коллекции нумерованных символов (также называемых управляющими 
кодами), образующие некоторые стандартные конфигурации. Наиболее часто 
применяется «почтенный» набор символов (5-АЗСП. Этот набор состоит из 
128 символов, включая прописные и строчные буквы латинского алфавита, чис- 
ла, различные символы, символы пробелов различных типов, а также специаль- 
ные коды печати, унаследованные со времен терминальных телетайпов. Подобная 
7-битовая система может быть легко расширена путем добавления 8-го бита. В ре- 
зультате количество возможных символов удваивается. Примером подобного 
расширенного набора символов может служить [5О-Гайп1, который применяется 
во многих Ошх-системах. В набор 15О-Гайт1 включены другие символы европей- 
ских языков, например, латинские буквы со знаками ударения, символы исланд- 
ского языка, лигатуры, маркеры сносок, а также символы, применяемые при офор- 
млении юридических документов. Помимо этого существует множество других 
лингвистических символов, которые могут быть «втиснуты» в 8-битовую систему. 


Исходя из этих соображений, разрабатывалась новая архитектура кодирова- 
ния символов, получившая название Опісоае. Эта архитектура получила призна- 
ние в качестве стандартного метода представления сценариев, предназначенных 
для хранения данных. В зависимости от реализации, набор символов (Опісойе мо- 
жет использовать до 32 битов для описания различных символов. В результате 
обеспечивается возможность для кодировки миллионов различных символов. Бук- 
вально за десять лет деятельности организации Чп1со4е Сопзогит это простран- 
ство заполнялось наборами символами, включающими иероглифы китайского язы- 
ка, различные математические, пунктуационные и знаковые символы. Несмотря 
на это все еще остается достаточно свободного места для включения новых симво- 
лов на протяжении, как минимум, двух ближайших тысячелетий. 


Вы, наверное, вовсе не удивитесь, узнав, что ХМ1.-документ может использовать 
любой тип кодировки. По умолчанию предполагается применение кодировки в сти- 
ле Опісоде, переменной длины, известной под названием ОТЕ-8. Данная кодировка 
предполагает применение от одного до шести байтов, применяемых для кодирова- 
ния чисел, которые представляют адреса символов (Опісойе, а также длину симво- 
лов, выраженную в байтах (в случае, если величина адреса превышает 255). Конеч- 
но, можно создать весь документ с применением 1-байтовых символов, причем в 
этом случае вы недалеко уйдете от 150 Гайп-1 (небольшой массив адресов, причем 
сами адреса варьируются в диапазоне от 0 до 255). Однако в этом случае могут воз- 
никнуть проблемы, когда, например, вам понадобится символ, выходящий за преде- 
лы данного диапазона (скажем, при необходимости организации хранения симво- 
лов одного из языков народов Юго-Восточной Азии). Здесь лучше воспользоваться 
кодировкой ОТЕ-8. Процессоры, способные обрабатывать набор символов Опісойе, 
выполняют подобную задачу корректно с последующим отображепием правильных 
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символов. Устаревшие приложения просто игнорируют многобайтные символы. 
Начиная с версии 5.6, Рей может корректно обрабатывать наборы символов ОТЕ-8. 
Эти вопросы подробнее будут рассматриваться в главе 3. 


ХМЕ-объявления 


После прочтения предыдущего раздела у проницательного читателя может воз- 
никнуть вопрос о целесообразности объявления метода кодирования в документе, 
если ХМГ-процессор распознает кодировку в автоматическом режиме. В качестве 
ответа па этот вопрос можно сказать лишь то, что этот метод следует указывать в 
ХМГ-обьявлении, которое представляет собой строку текста, находящуюся в заго- 
ловке документа. Здесь описывается тип применяемой разметки, включая версию 
ХМГ, кодировку символов, а также указывается, нуждается ли документ во внеш- 
нем подмножестве объявления ОТО. Подобное объявление может выглядеть сле- 
дующим образом: 


<?хш] мегѕіоп="1.0" епсойіпв="иї?8" эбапаа1опе="уез"?> 


Само объявление не является обязательным, как и каждый из его параметров 
(за исключением обязательного для указания атрибута мегз1оп). Параметр, ука- 
зывающий кодировку, требуется только в том случае, если используется коди- 
ровка символов, отличная от ОТЕ-8 (поскольку данная кодировка определена 
по умолчанию). В случае, если указан параметр "уеѕ" и если документ ссылает- 
ся на внешние сущности, наличие автономного объявления приведет к тому, что 
в ходе проверки с помощью анализатора генерируется ошибка. 


Инструкции по обработке 
и другие структурные элементы разметки 


Помимо рассмотренных ранее элементов, ХМЕ предоставляет в распоряжение 
пользователя некоторые другие синтаксические объекты. Инструкции по обработ- 
ке (ргосезз тв іпѕїгисїіопѕ, РІ) применяются для передачи информации выб- 
ранному ХМГ-процессору. Требуемый процессор указывается с помощью пара- 
метра цель, за которым следует необязательный параметр данные. Если в программе 
не распознается параметр цель, инструкция РІ пропускается и создается впечатле- 
ние, что она вообще не существует. Ниже приводится пример, основанный на не- 
гласном хакерском опыте авторов книги: 


<?111е-югеаКег Зфаг{ спарб4. хт1?><сһарїег> 

<Ше>Тпе мегу Іопо +їїле<?1ь?> һа зватей їо до оп Тогемег апа емег< АШе> 

<?хт12ра+ мѕрасе 10рі?> 

Цель первой инструкции РІ — ?і1е-БЬгеакег, а соответствующие ей данные 
содержатся в файле сһар04.хті. Программа, считывающая этот документ, ищет 
инструкцию с заданным целевым ключевым словом, а затем выполняет обработку 
данных. Реализуемая в данном случае цель заключается в создании нового файла 
и в сохранении в нем следующего ХМІ -кода. 

Вторая инструкция содержит только один целевой объскт— 16. Этот пример 
фактически определяет передачу ХМГ-процессору команды, определяющей 
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создание разрыва строки в этом месте текста. При выполнении примера возни- 
кают две проблемы. Инструкция РІ выполняет замену символа пробела. Проблема 
в этом случае возникает тогда, когда программа не может распознать эту инструк- 
цию. В результате будет утеряно значение символа пробела, заключающееся в раз- 
делении двух слов. Лучше поместить пробел после инструкции РІ и указать про- 
цессору па необходимость удаления всех последующих символов пробела. Вторая 
проблема возникает из-за применения в качестве цели инструкции, а не фактичес- 
кого имени программы. Поэтому лучше воспользоваться более характерным име- 
нем хт1 2 рат, указав его после инструкции РГ. Используемое в данном случае имя 
лучше, поскольку 16 слишком уж напоминает элемент данных. 


Инструкции РІ весьма удобны для разработчиков. Не существует общего пра- 
вила, определяющего формат имени цели либо применяемых данных, но, как пра- 
вило, имена являются более специфичными, а обозначения для данных — очень 
краткими. 

Если вы имели опыт написания документов с применением средств встроенно- 
го языка миниразметки Ре! (РІаіп О!а Ооситепѓіайоп, Простая старая документа- 
ция) ', то заметите подобие некоторых инструкций РІ и РОР-директив. В качестве 
примера можно рассматривать параграфы =Рог и блоки =беві п/=епа. В парагра- 
фах либо блоках можно оставлять для РОр-процессора небольшие сообщения, 
в которых определена цель и некоторые аргументы (либо просто произвольная 
строка текста). 

К другим часто используемым объектам разметки можно отнести ХМЁ-коммен- 
тарии. По определению, комментарии представляют собой фрагменты текста, игно- 
рируемые ХМГ-процессором. Назначение комментариев заключается в сообщении 
какой-либо информации читателям (как правило, в виде различных примечаний). 
Они также полезны при временном «отключении» части кода разметки па этапе от- 
ладки документа. Эта процедура безопаснее, чем простое удаление фрагментов тек- 
ста. Ниже приводится соответствующий пример: 


<!-- Следующий фрагмент текста не воспринимается анализатором --> 
Тһіѕ 1$ реггесНу уіѕібріе ХМ_ сопїепї. 
<1-- 


<рага> Тһіѕ рагадгарћ 1$ по Іопдег раг{ о? {йе йоситеп. </рага> 

-- > 

Обратите внимание на сходство синтаксиса и порядка обработки для ХМІ- и 
НТМ) -комментариев. 

Вложенные комментарии не допускаются. Причем не допускается даже «блед- 
ная тень» вложенного комментария. Так, например, в комментариях запрещено 
использовать строки "--" независимо от их назначения. 

А теперь приступим к рассмотрению секции СРАТА. Эта конструкция предназ- 
начена для определения символьных данных, которые не могут быть разобраны 
с помощью ХМГ-анализатора. Другими словами, секция СРАТА не содержит эле- 
ментов языка разметки. Это полезно в случае, если требуется включить блок тек- 
ста, состоящий из недопустимых символов языка (например, <, > и &), а преобра- 
зование в символьные объектные ссылки может быть затруднено. 


"Водолазкий В. Энциклопедия Рет|. — СПб.: Питер, 2001. 
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Ниже приводится соответствующий пример: 


<соде1і ѕе1іпо> 
<! [СРАТА[1Е ( Ѕуа1 > 3 && @1іпеѕ ) { 
фіприї = <ЕІІЕ>; 

> , 

</со4е1 1561 по> 

Содержимое, заключенное между символами < ! [СрАТА[ и |] >, трактуется в 
качестве данных, которые не имеют ничего общего с языком разметки. Секции 
СПАТА в дальнейшем будут применяться относительно редко, поскольку они 
«захламляют» написанный текст, а также затрудняют обработку ХМГ-кода. Впро- 
чем, бывают ситуации, когда без этих конструкций просто не обойтись. 


ХМЕ-документы: свободно определенная форма 
и формальная корректность 


Синтаксис языка ЗО МИ, требовал полного объявления каждого элемента и атри- 
бута в длинном перечне объявлений ОТО. Описание порядка объявления нахо- 
дится в следующем параграфе, а теперь просто представьте себе, что вы имеете 
дело с калькой документа. При использовании подобной кальки обработка доку- 
мента будет связана с немалыми накладными расходами, вследствис чего серьезно 
страдает реноме ЗС МЕ. как языка разметки, используемого в Интернете. Язык 
НТМЕ изначально позиционировался в качестве подмножества ЗО МГ, вследствие 
чего он перенял «лучшие» качества своего предшественника. Поэтому любой «пра- 
вильный» НТМІ-документ должен соответствовать объявлению НТМЕ ОТО. 
В любом случае расширение возможностей языка невозможно без получения одоб- 
рения \уер-комитета. 

В ХМІ подобное требование обходится путем добавления специального усло- 
вия, именуемого свободно определенной формой ХМІ.. В этом режиме при состав- 
лении документа требуется соблюдение минимального набора синтаксических пра- 
вил. Если эти правила соблюдаются, документ считается формально корректным. 
Эти правила обеспечивают невиданную степень свободы для разработчиков, по- 
скольку уже не требуется просмотр объявлений ОТО каждый раз, когда необходи- 
мо обработать часть ХМГ-кода. В обязанности процессора входит проверка со- 
блюдения минимальных синтаксических правил. 

ВХМІ-документе, имеющем свободно определенную форму, можно указывать 
любые имена элементов. Они не определяются в предварительно сформирован- 
ном словаре, как в случае с НТМГ-кодом. Придание некоторой степени свободы 
языку разметки, используемому в программах, сопряжено с определенным рис- 
ком, по если вы контролируете ситуацию, ничего страшного не произойдет. Если 
же вы полагаете, что разметка не будет соответствовать желаемому шаблону, вос- 
пользуйтесь объявлениями элементов и атрибутов (см. следующий раздел). 


' Авторы книги воспользовались секциями СОАТА при оформлении ХМГ-подобного документа 
ОосВоок, с помощью которого осуществлялась подготовка книги к печати. В частности. в эти секции 
были помещены все листинги кода и примеры ХМГ-документов, благодаря чему исключалась обра- 
ботка недопустимых символов, < и &. 
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Каковы же правила формальной корректности? Ниже представлен краткий пе- 
речень этих правил: 


• документ может содержать только один элемент верхнего уровня, именуе- 
мый элементом документа, который, в свою очередь, содержит другие эле- 
менты и данные. Все ХМГ-объявления и определения типа документа долж- 
ны предшествовать элементу документа; 


• каждый элемент содержимого документа должен включать начальный и ко- 
нечный тег; 


ы имена элементов и атрибутов чувствительны к смене регистра символов, при- 
чем могут использоваться лишь определенные виды символов (буквы, сим- 
волы подчеркивания, дефисы, ТОЧКИ и числа), а в качестве первого символа 
могут применяться только буквы и символы подчеркивания. Допускаются 
двоеточия, но только в префиксе объявленного пространства имен; 


ы все атрибуты должны иметь значения, заключенные в кавычки. 


• не допускается перекрытие элементов; начальный и конечный теги элемен- 
та должны четко выделяться внутри одного и того же элемента; 


. некоторыеэлементы, включая угловые скобки (< >) и знакамперсанда (&), 
зарезервированы языком разметки и не допускаются в качестве части со- 
держимого, подвергаемого синтаксическому разбору. Вместо них восполь- 
зуйтесь символьными объектными ссылками либо просто недопустимое со- 
держимое поместите в секцию СРАТА; 


• синтаксис, применяемый для начальных тегов непустых элементов, отлича- 
ется от синтаксиса пустых элементов. В последнем случае синтаксические 
правила требуют указание символа слэша (/) перед закрывающей угловой 
скобкой (>) тега. 


Существуют и дополнительные правила, поэтому для получения более полно- 
го представления относительно принципов формальной корректности необходи- 
мо обратиться к дополнительной литературе либо прочесть официальные реко- 
мендации консорциума МЗС, помещенные на \еб-узле Һр: //умум.м3.0г9/ХМЕ. 

Если необходимо выполнить обработку документа с помощью ХМГ-приложе- 
ний, убедитесь в том, что он соответствует требованиям формальной корректно- 
сти. Инструмент, применяемый для проверки соблюдения соответствующих пра- 
вил, называется программой проверки формальной корректности. В роли этой 
программы может быть использован ХМ[--анализатор, сообщающий пользовате- 
лю сведения о найденных ошибках. Часто подобный инструмент выполняет де- 
тальный анализ, в результате чего может сообщаться даже номер строки в файле, 
в которой произошла ошибка. Программы проверки и анализаторы подробно рас- 
сматриваются в главе 3. 


Объявление элементов и атрибутов 


Если требуется дополнительный уровень контроля качества (помимо сводки о «со- 
стоянии здоровья», формируемой на основе метки «формальной корректности»), 
в объявлении ОТО потребуется определить грамматические шаблоны для языка 
разметки. Благодаря этому получаем формальный язык, документированный 
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согласно международным стандартам. При наличии объявления ОТО программа 
получает средства для определения степени согласованности документа или, го- 
воря другими словами, пример правильного оформления документа. 

В ОТР определяются два типа объявлений, предназначенных для установки 
модели языка. Первый тип называется объявлением элемента. В результате его при- 
менения в набор разрешенных элементов добавляется новое имя, а в специальном 
языковом шаблоне указываются допустимые составляющие компоненты для эле- 
мента. Ниже приводятся некоторые примеры: 


<!ЕТЕМЕМТ запомиси ((теаё | сһееѕе)+ | (реапш-Бицег, јеПу)), 

сопаітепї+, ріск\е?) > 

<НЕМЕМТ риске ВМРТҮ> 

<!ЕТЕМЕМТ сопайтепе (РООАТА | тизага | Кеїсһир )*> 

Первый параметр объявляет имя элемента. Второй параметр представляет со- 
бой шаблон (модель содержимого, заключенная в скобки, либо такое ключевое 
слово, как ЕМРТҮ). Синтаксис моделей содержимого напоминает синтаксис ре- 
гулярных выражений. В случае с моделями основное различие заключается в том, 
что имена элементов представляют собой символы, причем запятая применяется с 
целью указания требуемой последовательности элементов. Каждый элемент, упо- 
мянутый в модели содержимого, должен объявляться в ОТО. 

Другой важный тип объявлений именуется объявлением списка атрибутов. Этот 
список позволяет объявлять набор дополнительных либо обязательных атрибу- 
тов для данного элемента. Значения атрибута должны контролироваться в неко- 
тором диапазоне, хотя и ограничения шаблона в чем-то ограничены. Обратите вни- 
мание на следующий пример: 


<!АТТЕТЗТ ѕапамісһ 
а Ір #КЕООІКЕр 
ргісе ООАТА #НМРУЕО 
їаѕїе СОАТА #НХЕЮ "%Уитту" 
гате (геиреп | пат-п-спеезе | вт | РВ-п-Ј ) "віт" 

> 

Общий шаблон объявления атрибутов состоит из трех частей: имя, тип данных 
и поведение. В примере объявляются три атрибута для элемента <ѕапамісћ>. Пер- 
вый из них, 14, представляет собой идентификатор типа. Он может иметь вид уни- 
кальной символьной строки, применяемой только один раз в составе любого атри- 
бута идентификатора типа в произвольном разделе документа. Идентификатор 
обязателен для применения (ключевое слово #КЕОЧІКЕРр). Второй атрибут, ргісе, 
представляет собой тип СРАТА Этот атрибут необязателен в соответствии с клю- 
чевым словом #ТМРЕТЕР. Третий атрибут, їаѕїе, представляет собой фиксирован- 
ное значение "уитту", которое не может изменяться (все элементы <ѕапаиісһћ> 
наследуют этот атрибут автоматически). И наконец, атрибут пате выбирается из 
нумерованного списка значений (по умолчанию, ' ВІТ '). 

Объявления элементов и атрибутов обладают некоторыми недостатками. Мо- 
дели содержимого присуща не слишком высокая степень гибкости. Например, до- 
вольно трудно закодировать инструкцию «этот элемент должен содержать каж- 
дый из элементов А, В, Си р в произвольном порядке» (попробуйте и убедитесь в 
этом сами!). Кроме того, невозможно установить ограничения для символьных 
данных. Невозможно проверить, что тег <4айе> содержит корректную дату, а не, 
например, почтовый адрес. Причина третьего наибольшего затруднения закл ючает- 
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ся в самом сообществе программистов, применяющих язык ХМГ. Причина про- 
блем кроется в плохом сопряжении между объявлениями ОТР и пространствами 
имен. При использовании объявлений элементов требуется определять все эле- 
менты, которые будут использоваться в документе, а не ограничиваться лишь не- 
которыми из них. Если же вы хотите оставить возможность для импорта элемен- 
тов некоторых типов из других пространств имен, использование объявлений ОТО 
с целью : фоверки документов становится весьма затрудигатсльным. Проблему мож- 
но обойти, если воспользоваться смешанными ОТО-комбипациямн, как было опи- 
сано ранее, но этот метод не всегда приемлем. 


Схемы 


Недостатки, связанные с применением ОТО-объявлений, мотут быть устранены с 
помощью альтернативных языковых схем. Консорциум ҰЗС в подобных случаях 
рекомендует использовать язык ХМІ. Ѕсһета. Следует знать, что этот язык явля- 
ется лишь одним из многих конкурирующих языков, имеющих тип схемы. Вполне 
возможно, что вам подойдет другой язык из этого семейства. Если вы решились на 
выбор другой схемы, обратитесь к сети СРАМ на предмет поиска модуля, призван- 
ного наилучшим образом выполнить ваши требования. 

В отличие от объявлений ОТО, схемы ХМІ. Ѕсһета являются ХМГ-докумен- 
тами. Реальное преимущество, достигаемое при использовании схем, заключается 
в возможности детализованного контроля над формами, с помощью которых осу- 
ществляется ввод пользовательских данных. Наличие подобного контроля особен- 
но приветствуется в документах, для которых проверка достоверности вводимых 
данных является столь же важной, как и наличие подходящей структуры. Лис- 
тинг 2.4 демонстрирует схему, разработанную для форм сбора сведений о моде- 
лях. В этих формах обязательной является проверка типа данных. 


Лиситнг 2.4. ХМІ-схема 


<х5:5ѕсһема хміпѕ: хѕ= "Һр; //мим. м3. ог8/ 2001 /ХМЕ5сНета-1пзтапсе" > 


<х5 : аппофаттоп> 
<х5 : іоситепіаїіоп> 
Сепзиз Ғоут Рог е Верџрііс оЁ 07 
Рерагітепі оЕ Рарегиогк, Епега1а Сібу 
</х5 : Чоситепта*1оп> 
</х5: аппоёаїіоп> 


<хѕ:е1епепе папе="сепѕиѕ" їуре="СепѕиѕТуре"/> 


<х5 : сотр1ехТуре паше="Сепзи$Туре"> 
<‹з:еетепЕ папе="сепзазбакег" буре="хѕ:десіпа1" пяпоссигз="0" /> 
<хѕ:е1епепі пате="аддкеѕѕ" суре="Аадкезз" /> 
<хѕ:е1етепї паме="оссирапЕ$" фуре=”Оссирай{ $" /> 
<хѕ:аїїгібиїе паще="Чабсе" фуре="х$ : ае" /> 

</х5 : сотрТехТуре> 


<х5 : сотріехТуре паме= "Аййгеѕ5"> 
<х5:е1етмепї папе= "потрес" їіуре="хѕ: аесіта1"/> 
<хѕ:е1епепс пате="ѕігеес" іуре= "х=: 51гіпв"/> 
<хз:е1етепЕ пате="сібу" їуре= "х5: ѕ51гіпр"/> 
<хѕ:еІетепі пате="ргоміпсе" їуре="хѕ:5їгіпр"/> 
<х5: аїїгіриїе папе="роѕёа1ісоде" буре= "РСоде" /> 
</х5 : сотр1ехТуре> 
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<х$ : 51тр1еТуре пате= "РСоае" Базе="х$ : $&г1пя" > 
<: раббетоуа\ие = "[А-7]-9{3}"/> 
</хз : ѕіпріевуре> 
<х5: сотр1ехТуре пате = "Оссирап% $" > 
<хѕ:е1етепї папе="оссцоап" тіпОссигѕ="1" тахОссиг$="20"> 
< : оотрІехТтуре> 
<х5: е\летепї пате="?ігѕїпате" їуре="хѕ:ѕїгіпр"/> 
<хБ:еіатт пате=" ѕигпате" їуре="хѕ:5гіпв"/> 
<х5; е1етепї пепе="аде"> 
<х5 : 51тр1еТуре баѕе="хѕ: роѕіїіуе- іпіевег" > 
<хѕ:тахЕхс1иѕіуе уа10џе="200"/> 
</х5: $1тр1етуре> 
</х5 : метейЕ> 
</хз:ссотріехТуре> 
</х5: е1етепї> 
</х5 : сотр1ехТуре> 


</х5: ѕсһета> 


В первой строке кода производится идентификация документа в качестве схе- 
мы, а также выполняется его связывание с пространством имен ХМІ. Ѕсһета. 
Следующая структура, <аппоѓаїіоп>, в основном предназначена для описания 
назначения документа схемы. После документальной части начинается объявле- 
ние типов элементов. 

Мы начнем с объявления корня нашего типа документа — с элемента, назы- 
ваемого <сепѕиѕ>. Само объявление представляет собой элемент, имеющий тип 
<х5 : е1етепт>. Соответствующие атрибуты элемента получают имя " сепѕиѕ",атип 
описания для <сепзиз > будет «Сепзиз Туре». В схемах, в отличие от ОТО, описания 
содержимого часто хранятся отдельно от объявлений, благодаря чему облегчается 
определение обобщенных типов элементов, а также назначение им различных эле- 
ментов. При дальнейшей детализации схемы обнаруживается описание фактичес- 
кого содержимого— элемент <х5 : сотр1ехТуре> с именем пате="СепѕиѕТуре". 
Здесь определяется, что элемент <сепѕиѕ> содержит необязательный элемент 
<сепѕиѕёакег >, за которым следуют обязательные элементы <оссирапїѕЅ> и 
<адӣгеѕ5>, Также должен определяться атрибут ааќѓе. 

Атрибут даїе и элемент <сепѕиѕѓіакег> обладают специфическими шаблона- 
ми данных, назначенными в описании для <сепѕиѕ>: дата и десятичное число. Если 
в качестве содержимого документа <сепѕиѕ> используется числовое значение, это, 
согласно применяемой схеме, может привести к ошибке. Подобный уровень конт- 
роля не может быть получен с помощью объявления ОТО. 

Многие типы схем поддаются проверке. К ним можно отнести числовые значе- 
ния (байты), числа с плавающей точкой, длинные целые числа, двоичные числа, 
а также булевы значения; шаблоны для маркировки времени и длительности; ад- 
реса Интернета, а также ЧВГ-ссылки; идентификаторы, ссылки идентификаторов 
и другие типы, позаимствованные из объявления ОТО; символьные строки. 

В описании тина элемента используются свойства, называемые аспектами 
(асе), либо даже более детализованные границы содержимого. Например, в при- 
веденном выше примере, схема включает элемент <азе>, тип данных которого — 
положительное целое число, а максимальное значение, равное 200, применяется 
для аспекта тах-1пс1и$1уе, Схема ХМІ, Ѕсһета включает многие другие аспек- 
ты, в том числергесіѕіоп, ѕсаІе, епсоаіпв, райегп, епитегаїіоп и тах-Т1епятп. 


Трансформации 45 


Описание Адагез$ определяет новую концепцию: шаблоны, определенные 
пользователем. Благодаря применению этой методики, роз{а1со4е может оп- 
ределяться с помощью шаблонного кода: [А-4] -а{3}. Использование этого кода 
подобно высказыванию: «Приемлемы любые алфавитные символы, за которыми 
следует дефис и три цифры». Если вас не устраивает ни один из применяемых 
типов данных, всегда можно разработать свой собственный тип. 

Схемы представляют собой пример новой технологии, облегчающей примене- 
ние ХМЕ, особенно в случае работы с приложениями, обрабатывающими данные 
(формы ввода данных). Ограниченный объем книги не позволит углубляться в де- 
тали, поэтому за дополнительными сведениями обращайтесь к другим источникам. 


Другие стратегии работы со схемами 


С момента получения одобрения консорциума МЗС, инструмент ХМГ, Ѕсһета 
эволюционировал и ныне представляет собой не просто схему, позволяющую вы- 
полнять гибкую проверку достоверности документа. Некоторые программисты 
предпочитают использовать методы, доступные посредством внедрения таких 
спецификаций, как ВеахМС (доступна па \еб-узле ИЕр://м\/\м.оа$5-ореп.огд/ 
соттіќееѕ/геіах-п9/) либо Ѕсһетасоп (Ир: //мммазсс.пе/хтИтгезоигсе/зснетагоп/ 
зсветагоп.В т). При этом те же самые цели могут достигаться с помощью различ- 
ных философских подходов. Последняя спецификация включала реализации язы- 
ка Рег|, доступные в настоящее время. Более подробно эта спецификация будет 
рассмотрена в главе 3. 


Трансформации 


А сейчас приступим к рассмотрению последнего вопроса этой главы — концеп- 
ции трансформаций. В ХМІ. трансформация определяется как процесс реструк- 
туризации либо преобразования документа в другую форму. При выполнении 
трансформаций консорциум МЗС рекомендует воспользоваться языком транс- 
формирования ХМГ, который называется языком таблиц стилей, применяемых 
для выполнения ХМГ-трансформации (ХЅІТ, ХМЕ ЅїуІеѕһееі Гапоџаве Юг 
Тгапѕѓогтаїіопѕ). Эта технология является весьма полезной и удобной в работе. 

Подобно языку ХМІ. Ѕсһета, Х5ГТ-сценарий трансформации представляет со- 
бой ХМГ-документ. Его создание регулируется правилами шаблона, каждое из ко- 
торых является инструкцией, определяющей преобразование типов элементов. 
Термин шаблон часто применяется в смысле определения внешнего вида того или 
иного объекта. При этом подразумеваются пустые места, заполняемые какими-либо 
данными в дальнейшем. А теперь обратите внимание на точное определение пра- 
вил шаблона: они определяют внешний вид конечного документа, а зарезервиро- 
ванные места заполняются данными ХЗ[.Т-процессора. 

В листинге 2.5 приводится упрощенная информация, с помощью которой про- 
стой ХМГ-документ, ОосВоок, преобразуется в НТМГ-страницу. 


Листинг 2.5. Документ, представляющий пример ХЗЕТ-трансформации 


<х51: 5їуЛ1еѕћееї 
хтіпѕ: х1 =" ПЕЇр: //мимм. м3. ОГЕ/ 1999 /Х$Е /ТгапѕҒогт" 
мегѕїоп="1.0"> 
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<х51:оиїриї теїћоа="һїімі"/> 


<!-- ПРАВИЛО ДЛЯ ЭЛЕМЕНТА ВОСК --> 
<х51:їетр1аїе таїсһ="роок"> 


<Һіщі > 
<һеаа> 
<{1Е1е><х$1: уа1ие-оЁ ѕе1есі="іїі1е"/></{ії1е> 
</пеаа> 
<роау> 
<ћ1><х51:уа1ие-о# Ѕе1есі= "11е" /></һ1> 
<А3>Тар1е ої Сопїепіѕ</һ3> 
<х51:са11-їетр\іаїе пате=" ос" /> 
<х51:арр\іу-їетр1аїеѕ ѕеіесі= " сһаріег"/> 
</боду> 
</һімі> 


</х51: сетрТате> 


<!-- ПРАВИЛО ДЛЯ СНАРТЕЋ - - > 
<х51:їетрІаїіе маїсһ="сһарїег" > 

<хѕ1:арріу-їетріаїеѕ/> 
</х51: темр1афе> 


<!-- ПРАВИЛО ДЛЯ СНАРТЕВ ТІТІЕ --> 
<х51:їемр\аїе маїсһ=" сПарфег/ {1 1е"> 
<һ2> 


<х51;їіехі>Сһаріег </хѕ1:їехі> 


<хѕі:питрег соипі="сһаріег" ІеуеІ="апу" Ғоғмаї="1"/> 
</н2> 


<х51:арр1у-їіетр1 аїеѕ/> 
</х51: їетр1аїе> 


<!-- ПРАВИЛО ДЛЯ РАВА -- > 
<х51:їтетр1аѓе таїсһ="рага"> 

<р><х51:арр1іу-ёетр1аїеѕ/></р> 
</х$1 : Тетр1ате> 


<!-- ИМЕНОВАННОЕ ПРАВИЛО: ТОС --> 
<х51:їетр1аїе пате="їос"> 
<х$1:11 Феѕї="соцпі (сһаріег) >0"> 
<хѕ1:#ог-еасһ зеес{= "сһаріег" > 
<х51;:їехі>Сһаріег </х$|:{ех{> 
<хѕ1:уа1иџе-о? ѕе1есі="роѕіїіоп( )"/> 
<хѕі:їехї>: </х51:їехі> 
<1><х5|: уаше-оЕ ѕеіесі= "{1{1е"/></1> 
<рг/> 
</х51: Ғог-еасһ> 
</хѕ1:і?> 
</ҳ51: їетр1аїе> 


4/51: ѕїуІеѕһееї> 


Сначала ХІ. Т-процессор считывает таблицу стилей и создает таблицу правил 
шаблона. Затем происходит сиптаксический разбор ХМІ-документа (предназна- 
ченного для преобразования) и выполняется поочередный обход узлов докумен- 
та. Узел представляет собой элемент, в качестве которого может использоваться 
фрагмент текста, инструкция по обработке, атрибут либо объявление простран- 
ства имен. Для каждого узла Х51 Т-процессор пытается найти лучшее правило 
установки соответствия. Процессор применяет правило, выводит данные, посту- 
пающие от шаблона, и в случае необходимости переходит к выполнению других 
правил. 
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В листинге 2.6 содержится документ, подвергаемый трансформации. 


Листинг 2.6. Трансформируемый документ 


<Боок> 


<ШПе>Тһе ВіІаїһегіпо Вга1п$</4{141е> 
<спарег> 
<ИНе>дА{т Те Вагааг</{111е> 
<рага> Мһаї а Ғапїаѕііс дау ії маѕ. Тһе сгаїеѕ меге $аскеа 
Һіоһ мии ітрогіеа 9004$: адаїеѕ, бапапаѕ, агіеа теаїѕ, 
Ипе 511кѕ, апа тоге {119$ їһап | соц! ітадіпе. Аз | 
маікеа агоипа, ѕауогіпо ће Ттадгапсез$ ої сіппатоп апа 


сагаатот, | аітоѕї аіап'ї пойсе а ѕта бооїћһ міёһ а 
Піе тап зе та Ыбгаіпѕ. </рага> 
<рага>Вгаіпѕ! Үеѕ, һитап бгаіпѕ, 51111 ачіїіе тоіѕї апа ѕаиіѕћһу, 


ѕміттіпо іп 619 91а$$ јагѕ #и11 оғ ѕоте дгеепіѕћ 
+1019. </рага> 

<рага> "Моша уои ИКе а Бгат, ѕіг?" һе аѕкеа. "\Мегу 
геаѕопабіе ргісеѕ. Неге іѕ Епгісо Ғегті'ѕ бгаіп Тог 
опГу ћмо агастаѕ. Ог, регһарѕ, уои моиша рге?ег 
Ог їһе дгеаї етрегог Акһпаїеп?"</рага> 

<рага>! гесоіеа іп һоггог...</рага> 

</сһарїег> 


</роок> 


А теперь вкратце остановимся на описании процесса трансформации. 


1. 


Первый элемент называется <БооК>. В качестве наилучшего правила уста- 
новки соответствия можно воспользоваться первым элементом, посколь- 
ку он явно соответствует слову «ФооК». В качестве тегов вывода шаблоном 
рассматриваются теги <Н&т1>, <һеай> и <иЦе>. Обратите внимание, что 
эти теги трактуются как данные разметки, поскольку они не содержат пре- 
фиксх $1: патеѕрасе. 


После того как процессор получает ХЗГТ-инструкцию <х51 :ма1ие-о? 
ѕеіесї=" 11е" />, осуществляется поиск элемента <11 {1е>, который яв- 
ляется вложенным для текущего элемента, <БоокК>. Затем требуется полу- 
чить значение этого элемента, в качестве которого используется содержа- 
щийся в нем текст. Этот текст выводится внутри элемента <и Ие> в качестве 
непосредственного шаблона. 


Затем процессор продолжает выполнять обработку, пока не встретит инст- 
рукцию <х51 : са11 - Еетр1аЁе пате="+ос"/>. Если вы посмотрите на ниж- 
нюю часть таблицы стилей, то увидите там правило шаблона, которое на- 
чинается строкой <х51:їетр1аїе пате="ос">. Это правило шаблона 
называется именованным шаблоном и по своему деиствию напоминает вы- 
зов функции. С его помощью собирается содержание и возвращается текст 
вызывающему правилу с целью дальнейшего вывода. 


Внутри именованного шаблона находится элемент <х51:1# їеѕі = "соипі 
(спартег) >0">. Этот элемент является условным оператором, проверяемое 
условие выполняет оценку количества элементов <сһарѓег>, находящихся 
в текущем элементе (<Боок>). После прохождения проверки выполняется 
дальнейшая обработка внутри элемента. 


Выполнение инструкции <х51 :ог-еасһ ѕе1есі="сһаріег" > приводит ктому, 
что процессор «посещает» каждый вложенный элемент <сһарїѓег> и времен- 
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но делает его текущим элементом внутри элемента <х1:Ёог-еасһ>. Этот 
шаг аналогичен итерации цикла Ғогеасћ () в Регі. Оператор <хз 1 :уа1ие-о? 
5е1ес(=" роз11оп ()" / > определяетчисловую позицию для каждого элемента 
<сһарїег>, а затем выводит ее. В результате документ считывает строки 
"СПартег 1", "Сһарїег 2" ит. д. 


6. Именованный шаблон " їос" возвращает текст вызывающему правилу шаб- 
лона и продолжает выполнение сценария. Затем процессор получает ди- 
рективу <х$1 : арр1у-{етр1а{ез ѕе1есі="сһарѓег"/>. Вывод <х$1 : арр1у- 
{етр1афез> без указания каких-либо атрибутов означает, что процессор 
должен обрабатывать каждый из вложенных элементов для текущего эле- 
мента, делая их текущими. При наличии атрибута ѕе1есі= "сһаріег" мо- 
гут обрабатываться только те вложенные элементы, которые имеют тип 
<сһарѓег>. После завершения обработки всех вложенных элементов и воз- 
врата инструкцией присущего ей текста, происходит отображение этого 
текста и переход к выполнению следующих правил. 


7. При перемещении к первому элементу <сһарѓег> процессор выбирает под- 
ходящее правило среди <х$1:арр1у- їетра1їеѕ/ >. Оставшаяся часть обра- 
ботки достаточно проста и сводится к выполнению правил для оставшихся 
элементов, <{1{1е>и <рага>. 


Язык ХЅІТ обладает богатыми возможностями по выполнению трансформаций, 
но ему также присущи и некоторые недостатки. В частности, может замедляться 
обработка больших документов. Это связано с тем, что перед выполнением обработ- 
ки создается внутреннее представление всего документа. Синтаксис данного языка 
обладает не столь богатыми выразительными способностями и простотой примене- 
ния, как синтаксис языка Реп. В дальнейшем будут представлены некоторых про- 
блем, которые могут решаться в рамках языка ХЅІТ средствами Рег]. Нуа вы сами 
сможете выбрать, что предпочесть, — простоту языка ХЅІТ или мощь Реп. 

Вот и завершился наш краткий тур по стране под названием ХМГ. В следующей 
главе мы начнем рассмотрение основ обработки кода ХМ. средствами Рей с приме- 
нением анализаторов и базовых генераторов. Необходимо четко осознавать область 
применения ХМГ, знакомиться с методами его применения, а также распознавать 
все конструкции, рассмотренные в этой главе. Если вы не уверены в своих силах, 
отложите в сторону эту книгу и освежите в памяти основы работы с ХМ. 


Основы ХМЕ: 
чтение и запись 


В настоящей главе освещаются две наиболее важные задачи, возникающие при ра- 
боте с ХМГ--документами: чтение и запись данных, находящихся в памяти. Извест- 
но, что ХМ.Т, определяет структурированный, предсказуемый и стандартный фор- 
мат, предназначенный для храпения данных. Известно, что в Рей принят стиль 
обработки текста «построчно, выполнение-по-мере-продвижения». В ХМ! предпо- 
лагается, что пользователь уже ознакомлен с «правилами игры» (структуры и про- 
токолы, описанные в главе 2), прежде чем приступает к работе. К счастью, большая 
часть тяжкого труда, связанного с обработкой текста, уже проделана создателями 
языка ХМГ. Результаты этих усилий воплощены в виде модулей-анализаторов и 
ряда других инструментов. С некоторыми из них вы уже ознакомились в главе 1. 


Знание принципов работы с синтаксическими анализаторами очень важно. Как 
правило, с их помощью выполняется обработка практически всех пользовательских 
данных. По крайней мере, анализаторы преобразуют данные таким образом, что 
становится возможной их обработка. Любой программист знает, что наличие под- 
готовленных данных — это уже полдела. А теперь углубимся в дебри процесса син- 
таксического разбора и определимся с выбором требуемых стратегий. 

Анализаторы имеют огромное количество опций, которые позволяют вам скон- 
фигурировать вывод данных в соответствии с конкретными нуждами. Какого рода 
набор символов требуется в этой ситуации? Необходима ли проверка достоверно- 
сти документа или достаточно ограничиться проверкой соблюдения правил фор- 
мальной корректности? Нужно ли расширять объектные ссылки либо следует их 
оставить в исходном виде? Каким образом устанавливается обработчик управле- 
ния событиями и как используется анализатор при создании дерева? Далее будут 
подробно рассмотрены эти возможности, в результате чего вы сможете более эф- 
фективно работать с синтаксическими анализаторами. 

И напоследок будет продемонстрировано, как избежать некоторых проблем, 
связанных с неправильной кодировкой используемого ХМГ-кода. Правильное вы- 
полнение этого шага довольно важно в случае, если требуется использовать ваши 
данные повторно без выполнения трудоемкой ручной правки. 
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ХМЕ-анализаторы 


Операции ввод/вывода файлов свойственны любому языку программирования, 
но обычно они выполняются на низком уровне: считывание символов или строк, 
фильтрация ввода с применением регулярных выражений и т. д. Как правило, уп- 
равление исходным текстом затруднено, а так же отсутствуют указания по разде- 
лению дискретных порций текста (если не учитывать используемую концепцию, 
заключающуюся в разделении строк символами новой строки и в разделении стол- 
бцов с помощью символов табуляции). Также существует множество схем упаков- 
ки данных, число которых превышает величины, возникающие в воображении ле- 
тописцев Вавилона. И вот из всего этого многообразия выделяется ХМІ., четкие 
правила которого обеспечивают такие возможности, как разграничение данных, 
распределение иерархий и выполнение ссылок на ресурсы предсказуемым обра- 
зом. Программа, которая полагается на эти правила, может считывать ХМІ -доку- 
мент, отвечающий требованиям формальной корректности. В этом она напомина- 
ет персонаж, поместивший у себя в ухе «вавилонскую рыбу»'. 


Гле же взять подобную рыбу, если в роли персонажа выступает ее величество 
Программа? По определению, ХМЕ-анализатор — это программа или библиоте- 
ка кодов, выполняющая трансляцию ХМ [.-данных в поток событий либо в объект 
данных. В результате подобных действий пользовательская программа получает 
непосредственный доступ к структурированным данным. ХМГ-код может выс- 
тупать в виде символьного потока, статической строки, одного или нескольких 
файлов или дескрипторов файлов. Этот поток или строка могут быть «нафарши- 
рованы» объектными ссылками, которые требуется или не требуется разрешать. 
Некоторые данные могут поступать из внешнего мира (например, из отдален- 
ных местоположений в Интернете). Кодировка символов может быть самой раз- 
нообразной (например, латиница либо японский язык). К счастью, программис- 
ту вряд ли потребуется учитывать какую-либо из этих деталей в своей программе, 
потому что обо всем позаботится анализатор. Программа анализатора представ- 
ляет собой «абстрактный туннель» между физическим состоянием данных и их 
кристаллизованным представлением. 

Программы ХМГ-анализаторов связывают данные разметки (пакеты данных с 
внедренными ХМГ-инструкциями) и некую исходную форму, с которой может 
работать ваша программа. В случае с Рей под исходной формой подразумевается 
совокупность хэш-объектов, скалярных элементов, массивов, а также объектов, 
появившихся в результате установки ссылок на другие объекты. ХМГ-код может 
иметь сложную структуру, а его части помещаются во многие файлы или потоки. 
Также в его составе могут содержаться неразрешенные сущности, которые нужда- 
ются в корректировке. Анализаторы же обычно принимают только качественный 
ХМГ-код, не содержащий формальных ошибок. Вывод кода должен отражать 
структуру: порядок, содержание, ассоциативность данных, в то время как такие 
второстепенные детали, как источник данных и применяемый набор символов, 


ї Читатели книги Дугласа Адамса «Путеводитель по Галактике» (Рой аз Адатз НисййЖегу Сиіде 
10 ше Сааху) помнят, что вавилонская рыба — это живое существо, выполняющее функции переводчи- 
ка с любых языков. 


ХМІ-анализаторы 51 


игнорируются. В результате возникает большой объем дополнительной работы. 
А теперь перечислим действия, выполняемые ХМГ-анализатором: 


Ы считывает поток символов и отделяет разметку от данных; 
Ы по возможности заменяет объектные ссылки их значениями; 


• собирает завершенный логически непротиворечивый документ на основе 
многих разрозненных источников; 


• сообщает о синтаксических, а также (дополнительно) о грамматических 
ошибках; 


• передает данные и структурную информацию клиентской программе. 


В ХМІ данные и разметка не разделены, поэтому анализатор должен отфильтро- 
вать поток символов и выполнить необходимые операции по разделению данных. 
Определенные символы отделяют команды от данных: для элементов, комментари- 
ев и инструкций по обработке применяются угловые скобки, а для объектных ссы- 
лок используются символы амперсанда и точка с запятой. Анализатор также может 
ожидать определенные команды и распознает неверные команды (например, в слу- 
чае если имеется начальный, но отсутствует завершающий тег). Располагая подоб- 
ной информацией, анализатор может преобразовать символьный поток в дискрет- 
ные части, соответствующие ХМ [Г-разметке. 

Следующая задача состоит в том, чтобы заполнить размеченные области. Для 
этого может понадобиться разрешить объектные ссылки. На первом этапе, в процес- 
се считывания ХМГ-кода процессор находит перечень определений меток-запол- 
нителей в виде объявлений сущностей. Причем краткий идентификатор ассоцииру- 
ется с объектом. Идентификатор — это некоторый буквенный текст, находящийся в 
определении ОТО для данного документа. Сущность может также задаваться в этой 
схеме или в деловой части ОВГ-ссылки. Эти объекты могут, в свою очередь, со- 
держать другие объектные ссылки, так что процесс разрешения ссылок может быть 
многоэтапным и завершиться после того, как будут окончательно заполнены раз- 
меченные области. 


Разрешение сущностей требуется далеко не всегда. Если вы просто отказывае- 
тесь от использования ХМ1.-документа после какой-нибудь незначительной обра- 
ботки, то может потребоваться отключить разрешение сущности или воспользо- 
ваться собственной процедурой для обработки объектных ссылок. Также можно 
разрешать внешние объектные ссылки (для сущностей, чьи значения находятся во 
внешних местоположениях, на которые указывают ОВГ-ссылки), но не разрешать 
внутренние ссылки. Большинство анализаторов предоставляют подобные возмож- 
ности, но не разрешают использовать объектные ссылки без их объявления. 

Изложенные выше соображения приводят к формулированию третьей задачи. 
Если позволить анализатору разрешать внешние сущности, будет осуществлена 
выборка всех документов, локальных и удаленных, которые содержат часть более 
обширного ХМГ-документа. При осуществлении этого процесса все сущности бу- 
дут объединены, образуя единый документ. Если программа не нуждается в ин- 
формации о физической структуре документа, данные об источнике какой-либо 
части документа становятся излишними непосредственно после завершения объе- 
динения всего документа. 

При осуществлении интерпретации разметки анализатор может обнаруживать 
синтаксические ошибки. В процессе проектирования ХМГ-языка предусматривал- 
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ся простой алгоритм ошибок подобного рода. Для всего, начиная с атрибутов и 
заканчивая тегами пустого элемента, установлены жесткие правила, формирую- 
щие их внутреннее устройство. Например, следующий фрагмент ХМГ-кода имеет 
очевидную ошибку. Начальный тег для элемента <десгее> содержит атрибут, ко- 
торому присвоено некорректное значение. В значении ‘по\" пропущен второй 
символ кавычки, а также имеется ошибка в завершающем теге. Постарайтесь ее 
обнаружить. 


<десгее е??есїіуеѕ" пом>А11 тоїогрікеѕ 

ѕһа! бе раіпїеа геа. </десгее< 

В случае возникновения подобных ошибок анализатор может прекратить выпол- 
няемую операцию. Нет никакого смысла в попытке анализа оставшейся части доку- 
мента. Назначение ХМГ. заключается в соблюдении однозначности. Если анализа- 
тор должен угадывать, как может выглядеть документ!, соответствующие данные 
становятся неопределенными, а надежность такой программы катастрофически па- 
дает. Вместо этого структура языка ХМІ была спроектирована таким образом, что- 
бы ХМГ-анализаторы не пропускали «плохие» ХМГ-документы. Если анализатору 
«правится» ваш ХМГ-код, он выдает сообщение, что код формально корректен. 

Что же мы подразумеваем под «грамматическими ошибками»? Нахождение 
подобного рода ошибок возможно только с помощью так называемых проверяю- 
щих достоверность анализаторов. Документ считается достоверным, если он про- 
шел проверку, определенную в схеме объявления ОТО. Языки и приложения, 
основанные на ХМГ, часто используют информацию из ОТО для установки како- 
го-либо минимального стандарта при распределении элементов и данных. Напри- 
мер, консорциум МЗС зарегистрировал по крайней мере одно объявление ОТО, 
в котором описывается ХНТМГ (ХМГ-совместимый тип НТМІ). В этом доку- 
менте перечисляются все элементы, их внешний вид, целевое местоположение, 
а также их содержимое. Грамматически корректно можно было бы включить 
элемент <р> внутри тела документа (<Боду >), а вот, например, помещение элемен- 
та <р> внутри заголовка (<ћеаа>) будет уже некорректным. Тем более не следует 
включать элемент <БооБу> где-нибудь в документе, поскольку он не описан 
в объявлении ОТО". Если в документе появится хотя бы одна ошибка такого типа, 
весь документ будет рассматриваться как некорректный. Он может подчинять- 
ся правилам формальной корректности, но не действительным но причине 
частичного противоречия с правилами, определенными в объявлении ОТО. Час- 
то такой уровень проверки больше мешает, чем помогает, но его наличие «греет 


душу». 
В конце нашего списка находится требование, говорящее о необходимости от- 
сылки анализатором переработанных данных программе или конечному пользова- 


' Большинство НТМГ-браузеров пытаются игнорировать ошибки, связанные с нарушением 
формальной корректности документа. Подобный факт привычен для пользователя, наблюдающего 
перманентное снижение качества \\сЬ-страниц, представленных и Сети. На самом деле лучше нс до- 
пускать ошибки синтаксического разбора, чем пытаться их исправить в дальнейшем. 

2 Если вы захотите авторизовать и ХМТ--коде жеђ-страницы, использующие теги <р\оору>, вы мо- 
жете спроектировать свое собственное расширение путем разработки определения ОТО. В этом доку- 
менте определяется использование объектных ссылок для выборки информации в ХНТМЕ. ОТО. За- 
тем в заголовке этого документа определяются пользовательские специальные элементы. В данном 
случае мы имеем дело с подклассом ХНТМІ. 
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телю. В этом случае доступно несколько возможностей, анализу которых посвяще- 
ны все последующие главы. Они образуют следующие категории: 


• поток событий — анализатор может генерировать поток событий: поток сим- 
волов разметки преобразуется в новый и более абстрактный тип потока, при- 
чем данные могут быть частично обработаны, а этот процесс упрощается ва- 
шей программой; 


• Представление объекта — также анализатор может конструировать структуру 
данных, которая отражает информацию в разметке ХМГ. Подобная конструк- 
ция требует больше системных ресурсов, но может быть удобнее, поскольку в 
этом случае создается постоянный объект, который будет сохраняться на про- 
тяжении всего времени обработки; 


• гибридная форма — мы могли бы назвать третью категорию «гибридным» вы- 
водом. Она включает анализаторы, которые придают процессу обработки бо- 
лее «интеллектуальный» характер, используя некоторые дополнительные зна- 
ния о документе с целью конструирования объекта, представляющего только 
часть вашего документа. 


Пример (которому не стоит следовать): 
проверка формальной корректности 


До сих пор ХМГ-анализаторы описывались несколько поверхностно, а сейчас при- 
шло время расширить и углубить эту тему. Теперь мы приступим к написанию соб- 
ственного анализатора, предназначенного для проверки формально! корректности 
документа. Этот анализатор является одним из простейших, которые только суще- 
ствуют в природе. С его помощью невозможно выполнять какую-либо дальнейшую 
обработку, а можно лишь давать однозначные ответы в стиле «да» или «нет». 

В данном случае мы преследуем двоякую цель. Во-первых, мы надеемся немного 
приоткрыть «тайный занавес» над процессом ХМГ-обработки — на самом деле речь 
идет еще об одном виде обработки текста. Однако мы также хотим подчеркнуть, что 
написание подходящего Рег-анализатора (как и анализатора для любого другого 
языка) требует немалых усилий, которые могут быть потрачены на создание более 
интересного кода, использующего один из многих доступных Регі-модулей, выпол- 
няющих синтаксический разбор. Для этого будет разработан фрагмент чистого ХМ! - 
анализатора, предназначенного для реализации весьма специфической задачи. 


ПРИМЕЧАНИЕ 
Наслаждайтесь работой с этой программой, но, пожалуйста, не пытайтесь использовать этот 
код в профессиональной практике! В данном случае не идет речь о реальном интеграционном 
решении Рей и ХМ, а приводится лишь иллюстрация того, что может сделать подобный 
анализатор. Также, это решение неполноценно и не всегда дает адекватный результат (как 
будет показано в дальнейшем). Пусть вас не смущает это обстоятельство, поскольку 
в последующих главах описываются реальные ХМІ-анализаторы и Реп-инструментарий. 


Наша программа представляет собой цикл, в процессе выполнения которого ре- 
гулярные выражения сопоставляются с объектами ХМГ-разметки, а также отделя- 
ют их от текста. Этот цикл выполняется до тех пор, пока не завершатся действия по 
перемещению, т.е. пока документ не будет отвечать правилам формальной коррект- 
ности либо пока регулярные выражения не будут соответствовать оставшимся в тек- 
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сте объектам (правила формальной корректности не соблюдаются). Процесс син- 
таксического разбора может быть остановлен в результате выполнения некоторых 
других проверок (например, если будет обнаружено, что имя завершающего тега не 
совпадает с именем открытого начального тега). Все это далеко от совершенства, по 
в итоге вы получите представление о том, как работает анализатор, проверяющий 
текст на соответствие правилам формальной корректности. 

Листинг 3.1 — это процедура, которая анализирует строку ХМГ-текста, то есть 
проверяет, проверяет соответствие текста правилам формальной корректности, 
а затем возвращает булево значение. С целью лучшего понимания сути регуляр- 
ных выражений были добавлены некоторые переменные. Например, строка $ і деп 
содержит код регулярного выражения, позволяющего установить соответствие 


с ХМІ-идентификатором, применяемым для элементов, атрибутов и инструкций 
по обработке. 


Листинг 3.1. Элементарный ХМІ-анализатор 


Зою 15 ме11 Ғогтеа { 
пу фїехї = з01ЁЕ6; # Проверяемый ХМІ-текст. 


# Шаблоны для сравнения. 

пу Ѕ1дӢепі = “[: А-2а-2] [:А-2а-20-9\-\._]*”;# Идентификатор. 
пу борЕзр = "\5*"; # дополнительное пространство 

ту $аїі = «%ійепї%орїѕр=%орїѕр\»[^\»] *\»»; # Атрибут. 

пу бабе? = «$%іадепі$орїѕр=$0ріѕр'[^']*'»;# Вариант атрибута. 
пу бабе = «($аїї1|$аїї2)»: # Любой атрибут. 


пу @е\етмепїѕ = ( ); # Стек открытых элементов. 


# Цикл по строке с целью выборки ХМП-разметки. 
у1211е( 1Леп8фи($+ех!) ) { 


# Сравнение с пустым элементом. 
1Е( Ѕіехі =- /^&($14епф) (\$+$а%{)*\5*\/>/ ) { 
беехЕ = $'; 


# Сравнение с начальным тегом элемента. 

} е1$1+( бЕехЕ =- /^&($19епЕ) (\$+$а%{)*\$*>/ ) { 
риѕћ( @е\етепіѕ, 51 ); 
Ѕрехі = $'; 


# Сравнение с завершающим тегом элемента. 

} еїѕіғ ( Ѕіехі =- /^4\/ ($14еп{)\$*>/ ) { 
гебогп ип1еѕ5( $1 еч рор( @е\1етепїѕ )); 
бсехі = $'; 

# Сравнение с комментарием. 

} е15ѕіЕ( Ѕіехі =- /^41-/ ) { 
беехЕ =$’; 

# Изъятие оставшейся части комментария. 
1Е( 56ехё =- /->/ ) { 


беехЕ = $’; 

гейип 1+( $" =- /-/ ); # Комментарий не может содержать "-". 
} азе { 

гетиги; 


} 
# Сравнение с секцией СПАТА. 
} е151#( Ѕбехі =- /^&!\ [СВАТА\ [/ ) { 
Ѕбехі = $’; 
# Исключение оставшейся части комментария. 


ХМЕ-анализаторы 55 


Ї#( бех =- /\1\1>/ ) { 


Обехё = 6; 
} е зе { 
геѓигп; 
} 
Сравнение с инструкцией по обработке. 
} е1з1Е( Ѕіехі =- т|^&\ ? $1аепЕ\$* [^\?]+\?> | ) { 
бех = $'; 


Сравнение с дополнительными пробелами 
(в случае, если пробел не включен в корневой элемент). 
е151#( Ѕбехі =-п|^\$+| ) { 

ЭрехЕ = $’; 


-— 


Сравнение с символьными данными. 

е151Ё( Ѕбехі =- / (^[^&&>]+)/ ) { 
пу ЅдӢаба = $1; 
# Проверка на нахождение данных внутри элемента. 
тебото іЁ( ЅдӢаба =- /\5/ апа пої ( @еіетепїѕ )); 
фїієехї = 5'; 


-- 


# Сравнение с объектной ссылкой. 
е151Ё( Ѕбехі =- /^&$149еп%;+/ ) { 


— 


ЭрехЕ =$'; 
# Нечто непредвиденное. 
} е1ѕе { 
геїигп; 
} 
гесогп іЁ( @е1етепїѕ ); # стек будет пустым 
геїигп 1: 


} 


Полезность Регі-массивов частично объясняется их способностью к маскиров- 
ке (как и в случае со многими другими абстрактными конструкциями данных)'. 
Здесь используется структура данных, называемая стеком. Эта структура на са- 
мом деле является просто массивом, доступ к которому определяется с помощью 
методов риѕһ () и РОР (). Элементы в стеке расположены по принципу «последним 
пришел, первым ушел» (1а${-шт, й151-ош, І1ЕО). Это означает, что когда последний 
элемент помещается в стек, то первый элемент оттуда удаляется. Такое устрой- 
ство удобно для запоминания имен текущих открытых элементов, поскольку в 
любое время любой новый элемент закрывает предыдущий элемент, помещенный 
в стек. Всякий раз, когда мы сталкиваемся с начальным тегом, он будет помещен в 
стек, и он же удаляется из стека по достижении завершающего тега. Для того что- 
бы не нарушать правила формальной корректности, каждый завершающий тегдол- 
жен соответствовать предыдущему начальному тегу (в этом случае стек оказыва- 
ется пезаменимым). 

Стек представляет все элементы, расположенные вдоль ветви ХМГ-дерева, от 
корня до текущего обрабатываемого элемента. Элементы обрабатываются в том 
порядке, в котором они находятся в документе. В случае представления документа 
в виде дерева, это будет выглядеть, будто вы идете от корня до конца одной ветви, 


1 Для получения дополнительных сведен ий поэтой теме обратитесь к книге В. Водолазкого «Эн- 
циклопедия Рей» (издательство «Питер»). 
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затем назад к другой ветви и т.д.. Подобный способ называется методом поиска в 
глубину. Он является каноническим и применяется для обработки всех ХМГ-до- 
кументов. 

Существует несколько моментов, проявляющихся в случае отступления от схе- 
мы простого цикла с целью выполнения нескольких дополнительных проверок. 
Код, проверяющий соответствие с комментарием, включает несколько шагов и за- 
вершается трехсимвольньш разделителем. Также необходима проверка наличия 
недопустимых пунктирных строк < —» внутри комментария. Программа проверки 
символьных данных, контролирующая степень заполненности стека, также требу- 
ет внимания; если стек пуст, появляется сообщение об ошибке, поскольку вне кор- 
невого элемента не разрешается наличие текста, отличного от служебных симво- 
лов. Ниже представлен короткий список ошибок, связанных с нарушением правил 
формальной корректности, распознаваемых анализатором: 


. идентификатор элемента или атрибута некорректно сформирован (приме- 
ры: "12 гоо," " -Ыа" и ".."); 


• символ, не являющийся пробелом, найден вне корневогоэлемента; 
• завершающий тег элементапе соответствует обнаруженномуначальному тегу; 


• атрибут не упомянут или использует недопустимую комбинацию символов 
кавычек; 


• Пустой элемент пропускает символ слэша (/) в конце соответствующего ему 
тега; 


• недопустимый символ типа одиночногоамперсанда (&) пли угловой скобки 
(<) найден в символьных данных; 


• найден некорректныйтсг разметки (примеры: "<#ообу<"и "<? Вибфа?>"). 


Испытаем наш анализатор в действии на нескольких тестовых примерах. Воз- 
можно, наипростейший завершенный ХМГ-документ, отвечающий правилам фор- 
мальной корректности, имеет такой вид: 


Следующий документ приводит к прекращению действия анализатора при на- 
личии ошибки. (Подсказка: обратите внимание на завершающий тег <теѕѕаве>.) 


<тето> 
<їо>ѕе1#</їо> 
<теззаре>0оп’ © -Ғогое бо пох Ше саг апа хмаѕһ е 
Іамп. <меѕѕаре> 
</лето> 
В документе могут встречаться и другие виды синтаксических ошибок, и наша 
программа найдет большинство из них. Однако некоторые ошибки остаются необ- 
наруженными. Например, в приведенном фрагменте кода должен указываться 
лишь один корневой элемент, но наша программа допускает наличие более чем 
одного элемента: 


<гоої>1 ат е опе, {тие гоої! < /гоої> 
<гоої>М№о, | ат!</гоої> 
<гоої>0һ оһ...</гоої> 


Итак, какие еще проблемы могут возникать в этом случае? Синтаксический 
анализатор не может обрабатывать объявление типа документа. Эта структура 
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иногда отображается в заголовке документа, который и определяет объявления 
РТО, используемые проверяющими достоверность анализаторами, а также может 
объявлять некоторые сущности. Используя присущий анализатору специализи- 
рованный синтаксис, сконструируем еще один цикл, предназначенный для объяв- 
ления типа документа. 

Наиболее значительный недостаток нашего синтаксического анализатора ко- 
ренится в методе, применяемом для разрешения объектных ссылок. Он может про- 
верять базовый синтаксис объектных ссылок, но не способен расширять сущности 
и включать их в текст. Почему же так происходит? Считается, что сущность может 
содержать нечто большее, чем обычные символьные данные. Она может включать 
код разметки, который варьируется от отдельного элемента до большого внешнего 
файла. Сущности также содержат ссылки на другие объекты, так что может потре- 
боваться несколько проходов для полного разрешения одной объектной ссылки. 
Анализатор даже не проверяет, объявлены ли сущности (эта операция невозмож- 
на в любом случае, поскольку недоступен метод, применяемый при чтении син- 
таксиса типов документов). При этом высока вероятность появления в документе 
ошибок, не обнаруживаемых анализатором. Для того чтобы избежать упомянутых 
проблем, следуйте указанным ниже правилам: 


• добавьте цикл разбора с целью считывания объявления типа документа пе- 
ред выполнением любого типа синтаксического разбора. Будут проанализи- 
рованы и сохранены все объявления сущности документов, поэтому позднее 
можно разрешать объектные ссылки; 


• в случае упоминания объявления типа документа выполните разбор ОТО, 
в результате чего обеспечивается считывание любых объявлений сущности; 


• восновном цикле разрешите все объектные ссылки по мере их появления. Эти 
объекты должны быть проанализированы наравне с присущими им объектны- 
ми ссылками. Обработка должна быть циклической и включать несколько вло- 
женных циклов, рекурсию и другие сложные программные конструкции. 


И вот, простой анализатор превратился в сложного монстра! Отсюда можно сде- 
лать вывод, что теория разбора ХМГ-кода проста только на первый взгляд, на прак- 
тике же она усложняется очень быстро. Это упражнение было довольно полезным, 
поскольку оно явно продемонстрировало, что вовлечено в процесс синтаксического 
разбора, однако мы не одобряем написание подобных программ. Напротив, мы ожи- 
даем, что вы воспользуетесь результатами исчерпывающей работы, уже проделан- 
ной при разработке синтаксических анализаторов. 


Анализатор ХМІ::Рагѕег 


Создание анализатора требует выполнения большого объема работы. Невозмож- 
но быть уверенным в том, что при написании программы учтены все моменты, пока 
не будет выполнено всестороннее тестирование кода. До тех пор пока вы не приоб- 
ретете достаточный уровень квалификации, ваши программы будут медленными 
и потребляющими большой объем вычислительных ресурсов. Однако в настоя- 
щее время существует множество высококачественных, бесплатно распространяе- 
мых и простых в применении пакетов ХМГ-анализаторов. Программисты, кото- 
рые на протяжении многих лет занимались вопросами сопряжения Ре! и ХМГ, 
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разработали целый ряд технических приемок и «изюминок», значительно облег- 
чающих вашу жизнь. 

Каким же образом Рег!-программисты могут получить доступ к готовым моду- 
лям с целью их применения в своих собственных программах? Проще всего обра- 
титься ко Всеобъемлющсй архивной сети Рег! (Сотргеһепѕіуе Реп АгсШуе М№еімогк, 
СРАМ). Здесь можно получить свободно распространяемые Ре!-модули, исход- 
ный код которых является открытым. Если вы до сих пор не пользовались сетью 
СРАМ, настала пора изменить свое отношение к этому вопросу и интегрироваться 
в мировое сообщество программистов. В этой сети можно найти множество моду- 
лей, созданных опытными программистами на Ре и ХМІ, решившими поделить- 
ся своими наработками с окружающим миром. 


ПРИМЕЧАНИЕ 
Не следует представлять сеть СРАМ в виде каталога готовых программ, предназначенных для 
решения всех задач, связанных с ХМЕ-кодированием. Скорее это набор инструментов, своего 
рода фундамент, на основе которого можно создавать свои собственные программы. Некоторые 
модули носят специальный характер и ориентированы на работу в составетаких популярных 
ХМЕ-приложений, как В55 и ЗОАР. Большинство же модулей носят общий характер и могут 
применяться для решения других задач. Конечно, не исключена вероятность, что вы не найдете 
нужный модуль. В этом случае можно воспользоваться ХМЕ-модулями общего назначения, 
адаптировав их с целью решения конкретных задач. Процесс адаптации будет рассмотрен в 
дальнейшем. 


т 


Существует две основные категории различий между ХМГ-анализаторами. 
Так, различается применяемый стиль синтаксического разбора, посредством ко- 
торого выполняется обработка ХМГ-кода. В частности, применяется несколько 
различных стратегий, таких как построение структуры данных или создание по- 
тока событий. Другой атрибут, присущий анализаторам, называется степенью 
завершенности стандартов. Спектр значений этого атрибута варьируется от узко- 
специальных до исчерпывающих решений, основанных на различных стандартах. 
Причем баланс плавно перемещается в направлении от нетрадиционных решений 
к стандартным наработкам, по мере того как сообщество Ре!-разработчиков реа- 
лизует основные стандарты, такие как ЗАХ и РОМ. 

Модуль ХМ. : : Рагѕегявляется предшественником всех ХМІ -процессоров, осно- 
ванных на Реті. Этому анализатору присуще множество свойств, включая наличие 
различных стилей синтаксического разбора. Конечно, этот анализатор не совместим 
со многими стандартами, но до сих пор, в силу ряда причин, является широко рас- 
пространенным. И этой популярности совершенно не мешает то, что ХМі : : Рагѕег 
использует нестандартные АР] и требует осторожности при осуществлении неко- 
торых операций. Действительно этот анализатор обеспечивает приемлемое быст- 
родействие и гибкость при разборе документов, но этим его преимущества и огра- 
ничиваются. Возможно, популярность этой программы связана с чувством первой 
любви, испытываемой многими людьми по отношению к событиям и вещам их 
юности. В любом случае, практически все модули и программы, имеющие отноше- 
ние к миру Рег| и ХМГ, основаны на применении модуля ХМЕ: : Рагзег. 

Начиная с 2001 года стали появляться новые низкоуровневые модули-анали- 
заторы, основанные на быстродействующих и поддерживающих многие стандар- 
ты библиотеках. В скором времени мы вкратце остановимся па этих модулях. Но 
начнем с рассмотрения модуля ХМ: : Рагѕег, отдав должное его заслугам и много- 
численным функциональным свойствам. 
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Еще на заре возникновения ХМІ программист по имени Джеймс Кларк (Јатеѕ 
СагК), воспользовавшись возможностями языка С, разработал библиотеку ХМГ- 
анализатора под названием Ехраѓ'. Благодаря быстродействию, эффективности и 
стабильности этот анализатор вскоре стал стандартом «де-факто» для мпогих про- 
граммистов, занятых проблемами интеграции ХМІ. и Реп. С целью облегчения 
задачи интеграции Ларри Уолл (Гаггу Ма) разработал низкоуровневую АРІ-биб- 
лиотеку, включив ее в состав модуля ХМІ : : Рагѕег: : Ехраїѓ. Затем был надстроен 
еще один верхний уровень, получивший название ХМ. : : Рагзег. Этот анализатор 
общего назначения мог применяться при решении различных задач. Благодаря под- 
держке Кларка Купера (СЛагК Соорег) анализатор ХМЬ : : Рагѕегстал фундаментом 
многих разработанных ХМГ-модулей. 


Секрет успеха анализатора ХМ! : : Рагзег заключается в применении возмож- 
ностей языка С. В предшествующих параграфах уже рассматривалось создание про- 
стого анализатора, основанного на Ре!|. Если воспользоваться нашим примером 
с целью обработки большого ХМГ-документа, это может привести к большим за- 
тратам времени. Конечно, полнофункциональные ХМГ-анализаторы, созданные 
на основе Рет|, могут переноситься на любую систему, но их быстродействие неве- 
лико. Более высокая производительность наблюдаются в случае скомпилирован- 
ных на базе С анализаторов, таких как Ехраѓ. Причем, как и в случае с любым Реп- 
модулем, основанным на С-коде (благодаря наличию стандартной библиотеки 
Рег|, Х5?, ничто не мешает широкому распространению подобных модулей), при 
использовании анализатора ХМ: : Рагзег не ощущается наличие Ехраї. 


Пример: и снова программа 
проверки формальной корректности 


С целью иллюстрации возможностей модуля ХМ: : Рагѕег снова вернемся к про- 
блеме проверки формальной корректности. Инструмент, пригодный для выпол- 
нения этой задачи, может быть легко создан с помощью анализатора ХМ: :Рагзег, 
как показано в листинге 3.2. 


Листинг 3.2. Программа проверки формальной корректности, созданная на базе 
модуля ХМІ::Рагѕег 


иѕе ХМЕ: :Рагѕег; 

пу $хм1+11е = эр1ЕЕ @АКСУ; # файл для синтаксического разбора 

# Инициализация объекта анализатора и разбор строки, 

пу брагзег = ХМі::Рагѕег->пем( ЕггогСопіехі => 2 ); 

еуа1 { Фрагѕег->рагѕе?і1е( $хт1#і1е ); }; 

# Информация об ошибках, приведших к останову процесса 

# синтаксического разбора, либо извещение об успехе. 

1Е( $@) { 
$@ =- Ѕ/аб \/.*25//5; # удаление номера строки модуля. 
ргіпі ЅТрЕКК «\пЕВВОВ іп “$+11е”: \п$@\п»; 


1 Имя Джеймса Кларка широко известно в среде разработчиков па языке ХМІ.. Он неутомимо 
утверждает свои стандарты в составе консорциума №ЗС, разрабатывая свободно распространяемые 
инструменты. Результаты его работ размещены па \еБ-узле ћїр://ммм.јсіагк.сот/. Кларк также явля- 
ется автором рекомендационных документов но ХЅІТ и ХРаб. Эти документы можно пайти на меб- 
узле ПИр://\\\им3.оге/. 

2 Дополнительные сведения можно найти па тап-странице команды регіхѕ. 
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} ее { 
ріп УГОЕБВ «"$Е11е" 1$ ме11 -Фогме4\ п»; 


> 

Приступим к рассмотрению структуры программы. Сначала создается новый 
объект ХМІ: : Рагѕег, предназначенный для выполнения синтаксического разбора. 
Благодаря тому что вместо вызова статической функции используется объект, мож- 
но сконфигурировать анализатор один раз, а затем обрабатывать различные файлы. 
При этом не требуется повторное создание этой программы. Во время выполнения 
синтаксического разбора файлов остаются неизменными все пользовательские на- 
стройки, а также не затрагивается анализатор Ехра{. После завершения работы про- 
изводится очистка. 

Затем в составе блока еуа1 вызывается метод рагзе{!11е().Это связано с тем, 
что анализатор ХМ: : Рагзег проявляет излишнюю «ретивость» при обработке 
ошибок, выявленных на этапе синтаксического разбора. Если же блок еуа| не 
используется, выполнение программы может завершиться досрочно. И причи- 
ной этого может стать выполнение очистки. В случае возникновения какой-либо 
ошибки проверяется содержимое переменной $@. Если имеет место ошибка, 
производится удаление соответствующей строки модуля, а затем выводится на 
печать соответствующее сообщение. При инициализации объекта анализатора 
устанавливается опция ЕггогСопќѓехі => 2. Анализатор ХМі: : Рагзег включает 
несколько опций, позволяющих установить контроль процесса синтаксического 
разбора. В качестве одной из таких опций можно рассматривать директиву, отсы- 
лаемую непосредственно анализатору Ехраї. Эта директива используется с целью 
запоминания содержимого, в котором произошла ошибка, а также для сохране- 
ния двух строк, предшествующих ошибке. Затем выводится на печать сообще- 
ние об ошибке, в котором указывается номер строки, содержащей ошибку, а так- 
же отображается область текста со стрелкой, указывающей па саму ошибку. 


Ниже приводится пример сообщения об ошибке, отображаемого программой 
проверки синтаксиса (наша программа называется х\Ё, аббревиатура, образованная 
от слов «ХМГ \е|-Югтедпез$» (формальная корректность кода ХМ1.)): 


$ хи? сп01. хп 


ЕНА іп 'спһо1.хті': 

ПОЇ ме11 - Ғогтей (іпмаіа іокеп) аї іпе 66, соитп 22, буе 2354: 
<сһарїег іа = "аогоїһу-іп-о2"> 

<їіїле>1іопѕ, Тідегѕ & Веагѕ</їїї1е> 


ГҮЧҮЧЧҮЧҮТТТЧҮТТТҮТЧЧЧ ^ 


Обратите внимание, насколько просто было установить анализатор и получить 
нетривиальные результаты. Для оценки быстродействия программы необходимо 
запустить ее на выполнение. В частности, при вводе какой-либо команды результат 
отображается за долю секунды. 

Рабочее конфигурирование анализатора может выполняться различными путя- 
ми. Например, может потребоваться запретить выполнение синтаксического разбо- 
ра файлов. Если необходимо произвести синтаксический разбор текстовых строк, 
воспользуйтесь методом раг ѕе(). Также может потребоваться опция МоЕхрапа => 1, 
заменяющая статгдартное расширение сущности процедурой вашего собственного 
определителя сущностей. Эта опция может использоваться для предотвращения 
открытия внешних сущностей, ограничивая тем самым область проверки синтак- 
сиса, осуществляемой анализатором. 
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Несмотря на то, что программа проверки формальной корректности является 
весьма полезным инструментом, при частой работе с ХМГ-файлами его возмож- 
ностей будет явно недостаточно. В следующем разделе рассматривается, какую 
важную роль играет анализатор при передаче данных в программу. При этом под- 
черкивается важность правильного выбора стиля синтаксического разбора. 


Стили синтаксического разбора 


Анализатор ХМІ: : Рагзег поддерживает несколько различных стилей синтакси- 
ческого разбора, применимых для реализации различных стратегий разработки. 
Используемый стиль не изменяет порядок считывания анализатором ХМГ-кода. 
Скорее он переопределяет формат представления результатов синтаксического раз- 
бора. И если вы нуждаетесь в непротиворечивой структуре, предназначенной для 
хранения документа, вы ее получите. А если вы предпочитаете иметь анализатор, 
способный вызывать набор пользовательских процедур, то и в этом случае особых 
проблем не возникнет. Настройка стиля достигается путем инициализации объек- 
та, осуществляемой присваиванием значения атрибуту ${У1е. Далее производит- 
ся краткий обзор доступных стилен: 


• отладка (деђив) — при использовании этого стиля производится вывод до- 
кумента в поток 5ТООЦТ, причем документ отформатирован в виде структу- 
ры (вложенные элементы располагаются с отступом). Метод рагзе () не воз- 
вращает программе какие-либо полезные данные; 


• дерево ((гее) — этот стиль создает иерархическую структуру данных в фор- 
ме дерева, которое может обрабатываться программой. Эта форма содержит 
все элементы и их данные, причем ее структура включает вложенные хэш- 
объекты и массивы; 


• объект (обес) — как и в случае с деревом, возвращается ссылка на иерархи- 
ческую структуру данных, которая представляет документ. Однако в этом 
случае вместо использования простых агрегатов данных, подобных хэш- 
объектам и спискам, применяются объекты, включающие ХМГ-разметку; 


р процедуры (ѕиђѕ) — этот стиль позволяет устанавливать функции обратно- 
го вызова, предназначенные для обработки отдельных элементов. В этом 
случае создается пакет процедур, вызываемых после обрабатываемых ими 
элементов. Затем анализатору сообщается о наличии подобного пакета с 
помощью опции рК?. Всякий раз, когда анализатор встречает начальный 
тег элемента <Юобу>, начинается поиск метода Тоору() внутри пакета. 
После того как анализатор встречает завершающий тег элемента, предпри- 
нимается попытка вызова функции ѓообу(), входящей в состав пакета. 
При этом анализатор передает критически важную информацию, напри- 
мер, ссылки па содержимое и атрибуты функции. Благодаря этому стано- 
вится возможным выполнение обработки со стороны пользователя; 


• поток (ѕіғегат) — Как и в случае со стилем $и6$, можно определять обрат- 
ные вызовы, реализующие обработку конкретных ХМ! -компонентов, при- 
чем обратные вызовы носят более общий характер, чем имена элементов. 
Можно создавать функции, именуемые обработчиками, которые вызывают- 
ся так называемыми «событиями». В роли события может выступать начало 
элемента (любой элемент, а не просто определенный сорт таких элементов), 
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набор символьных данных либо инструкция по обработке. Регистрация па- 
кета обработчика производится с помощью опции Напег$ либо метода 
ѕеїНапа1егѕ (); 


е Настраиваемый (Сиѕіот) — можно образовать подкласс класса ХМС :Рагзег 
на основе пользовательского объекта. Подобная операция довольно часто 
применяется при создании АРІ в стиле анализаторов, предназначенных для 
более специфичных приложений. Например, подобная стратегия может при- 
меняться модулем ХМІ: : Рагзег: :Рей$АХ с целью реализации стандарта 
обработки событий ЅАХ. 


Листинг 3.3 представляет собой образец программы, использующей анализатор 


ХМІ : : Рагзег. Здесь атрибуту $їіуІе присвосно значение Тгее. Находясь в этом режи- 


ме, 


анализатор считывает весь ХМГ-документ в процессе построения структуры дан- 


ных. После завершения этой работы устанавливается связь между программой и 
соответствующей ей структурой. 


Листинг 3.3. Генератор ХМЕ-дерева 


иѕе ХМі: : Рагѕег; 


# Инициализация анализатора и считывание файла. 
Ѕрагѕег = пем ХМЕ::Рагзег( З{у!е => "Тгее" ); 
ту фігее = $рагѕег->рагѕе?і1е( ПН! @АВС\ ); 


# Преобразование структуры в последовательную форму. 
иѕе Вата: :Гитрег; 
ріп ритрег( $%гее ); 


При переключении в режим дерева метод рагѕеѓі1еО возвращает ссылку на 


структуру данных, содержащую документ, который кодируется с применением 
хэш-объектов и списков. Модуль Вафа: : Оштрег применяется для преобразова- 
ния в последовательную форму структур данных, а также для просмотра резуль- 
татов работы. Листинг 3.4 описывает применяемый файл данных. 


Листинг 3.4. Файл данных ХМЕ 


<ргеѓегепсеѕ> 
<ғопі гоіе="сопѕоіе"> 
<#паме>Соцгіег</пате> 
<5і2е>9< /5іхе> 
<Лощ> 
<ғопЇ гоіе = "Яеғаи1ї" > 
<тате>Ттез №м Вотап</пате> 
<5172е>14< /5і 2е> 
<Лощ> 
<ЮПЕ го1е="{1{1е$"> 
<тате>Немейса< /пате> 
<5172е>10</517е> 
<Лощ> 
</ргеғегепсеѕ> 


На основе подобного файла данных программа генерирует следующий вывод 


(соответствующим образом отформатированный с целью улучшения восприятия): 


$ігее = [ 
"ргеѓегепсеѕ' , [ 
(3,0, '\', 
"Ғопї', [ 


{ "го1е' => 'сопѕо1е' }, 0, '\п', 
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ате 9 ГТО МА, 

"#паме', [ {>, 0, 'Сошіег' ], 0, '\' 

О А 

‘Рой’, [ 

{ 'го1фе' => 'еҒаџ1ё!' }, 0, '\п’, 

'Гпате’', [ {}, 0, 'Тмез Мет Котап' ], 0, '\п', 
'512е', [{},0, '14'],0, '\' 

ОРО тавр 

"Ғолї', [ 


{ 'го1е' => 'їії1еѕ' }, 0, '\№ш', 


е ето аи, 
"Ғпапе', [ {}, ©, 'Не1уебіса' ], 0, '\п', 
1,0, '\п', 


]: 

Значительно проще создать код, «анатомирующий» указанную выше струк- 
туру, чем написать собственный анализатор. С другой стороны, анализатор воз- 
вращает структуру данных вместо малопонятного промежуточного продукта син- 
таксического разбора, благодаря которой можно сделать вывод о стопроцентном 
соответствии документа правил формальной корректности ХМГ. В главе 4 под- 
робнее рассматривается потоковый режим ХМЕ : : Рагзет, а в главе 6 мы углубим- 
ся в «дебри» деревьев и объектов. 


Два различных подхода к обработке данных: 
деревья и потоки 


Помните основное правило, справедливое для Реп: «Существует более одного спо- 
соба для выполнения одного и того же действия»? Это правило также остается 
справедливым в мире ХМГ. Пользователю доступны различные возможности, в за- 
висимости от поставленной цели и ресурсов, которыми он располагает. Одни раз- 
работчики предпочитают выполнение синтаксического разбора, поскольку эта ра- 
бота является относительно простой. При этом они готовы идти па издержки, 
связанные с избыточным потреблением памяти и других системных ресурсов. Дру- 
гим требуется улучшенная производительность и экономия системных ресурсов 
за счет создания более сложного кода. 


Обработка ХМГ-кода может осуществляться с применением различных стра- 
тегий. Большинство из них относятся к следующим двум категориям: основанные 
на потоках и основанные на деревьях. Использование стратегии, основанной на 
потоках, подразумевает непрерывную передачу информации программе анализа- 
тором в соответствии с ХМГ-шаблонами. Анализатор функционирует подобно 
каналу, в качестве исходных данных для которого выступает ХМГ-разметка. За- 
тем обработанные фрагменты данных передаются программе. Этот капал называ- 
ется потоком событий. Происхождение подобного названия связано с тем, что каж- 
дый фрагмент данных, отсылаемый программе, сигнализирует о чем-то новом и 
интересном, происшедшем в ХМГ-потоке. Например, к разряду важных событий 
можно отнести начало нового элемента. В этом случае происходит поиск инструк- 
ций по обработке, находящихся в тексте разметки. В результате выполнения каж- 
дого нового обновления программа осуществляет новую трансляцию данных, про- 
изводя их передачу в новое местоположение. Затем выполняется тестирование на 
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предмет наличия специфического содержимого, которое может помещаться в по- 
стоянно растушую «кучу» данных. 

Врамкахстратегии, основанной на деревьях, анализатор сохраняетданныедо 
тех пор, пока не будет создана завершенная модель документа. В данном случае 
идет речь не о канале, а о камере, с помощью которой делаются снимки, переда- 
ваемые пользователю. Эта модель более удобна в применении, чем исходный 
ХМІ-код. Например, вложенные элементы могут представляться к виде соб- 
ственных Регі-структур, подобных спискам либо хэш-объектам, как упоминалось 
в предыдущем примере. Еще более уместным выглядит применение деревьев при 
работе с объектами, которым присущи методы, облегчающие перемещение в пре- 
делах структуры. Ключевое преимущество этой стратегии проявляется в том, что 
программа может производить быструю выборку данных в любом порядке. 


Итак, какую из описанных стратегий следует предпочесть? Каждая из них об- 
ладает определенными преимуществами и недостатками. Потокам событий при- 
суще быстродействие и малое потребление ресурсов памяти. За это приходится 
расплачиваться более сложным кодом и непостоянством данных. С другой сторо- 
ны, при построении деревьев становится возможным фиксация данных до тех пор, 
пока они будут нужны. Код, применяемый в этом случае, обычно проше. Это свя- 
зано с отсутствием специальных приемов, предназначенных для реализации та- 
ких методик, как, например, обратный поиск. Деревья применять не следует в слу- 
чае ограниченности ресурсов машинного времени и памяти. 

Конечно, все эти соображения носят относительный характер. Обработка не- 
больших документов не представляет особых затруднений для типичного ком- 
пьютера, особенно если учесть тенденцию постоянного удешевления аппарат- 
ных компонентов. Вполне возможно, что удобство совместимой структуры данных 
перевешивает другие недостатки. С другой стороны, при работе с огромными до- 
кументами, либо при одновременной обработке большого числа документов, мо- 
гуг возникать определенные проблемы. В этом случае болыпую ценность приоб- 
ретает быстродействие обработчиков потока событий. Невозможно выработать 
рецепты, пригодные на все случаи жизни, поэтому окончательное решение оста- 
ется за вами. 


Интересно отметить, что на базе стратегии, основанной на деревьях, может раз- 
рабатываться стратегия, основанная на потоках. Также справедливо обратное ут- 
верждение. Так, например, потоки событий управляют процессом построения струк- 
тур данных, организованных в виде деревьев. Таким образом, в качестве анализаторов 
самого нижнего уровня могут применяться потоки событий, поскольку над ними 
можно всегда надстроить уровень, реализующий создание деревьев. Именно на 
этом основана работа ХМ. :: Рагзег и большинства других анализаторов. 

В процессе разработки современных программ потоки событий ХМЕ могут 
включать любой тип документа в состав некоторых форм ХМГ-кода. На практике 
это достигается путем создания анализаторов, основанных на потоках. Эти анали- 
заторы генерируют ХМГ-события на основе произвольных структур данных, скры- 
вающихся в данном типе документа. 

Можно еше многое сказать о потоках событий и построителях деревьях, но нев 
этой главе. Фактически данная тема обсуждается в двух отдельных главах этой 
книги. В главе 4 приводится теория, лежащая в основе потоков событий, а также 
изложены многочисленные практические примеры. В главе 6 рассматриваются де- 
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ревья и соответствующие практические примеры. В главе 8 демонстрируются сво- 
его рода «гибриды», воплощающие лучшие качества описанных структур данных. 
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На этом завершим обсуждение подробностей внутреннего устройства анализа- 
торов. Наступило время перейти к практическим аспектам их применения. До 
сих пор мы уже рассматривали пример завершенной структуры дерева, постро- 
енной с помощью анализатора (пример 3.3). А теперь приступим к рассмотре- 
нию других структур данных. Возьмем поток ХМГ-события и задействуем в про- 
цессе обработки путем его включения в состав некоторого кода, предназначенного 
для выполнения обработки событий. Конечно, этот инструмент нельзя назвать 
наилучшим в мире, но его возможностей будет вполне достаточно, чтобы проде- 
монстрировать пользователю методы разработки реальных программ обработки 
из мира ХМГ. 

В качестве точки входа программы будет применяться анализатор ХМі : : Рагѕег 
(причем на нижнем уровне выполняется Ехраї). Анализатор Ехраё имеет отно- 
шение к упомянутой ранее методике синтаксического разбора, основанного па со- 
бытиях. Вместо того чтобы загружать весь ХМГ-документ в память с последую- 
щим его подробным обзором, в данном случае происходит останов всякий раз, когда 
встречается дискретный фрагмент данных либо разметки, например, тег, заклю- 
ченный в угловые скобки, либо строка из литералов, находящаяся внутри элемен- 
та. Затем проверяется реакция программы на наличие подобных событий. 

Вашей первой обязанностью является предоставление анализатору интерфей- 
са, реализованного в виде уместных в данной ситуации фрагментов кода. Каждый 
тип события обрабатывается с помощью отдельной процедуры, также называемой 
обработчиком. Регистрация обработчиков вместе с анализатором осуществляется 
с помощью установки значения опции Нап ]ег$ во время инициализации. Весь 
описанный процесс иллюстрируется листингом 3.5. 


Листинг3.5.ХМЕ-процессор, основанный на потоках 


иѕе ХМІ: : Рагѕег; 
# Инициализация анализатора. 
пу Ѕрагѕег = ХМі::Рагѕег->пем( Напа1егѕ => 
{ 
Ѕсагі=> \&һапа1е 5ѕїагі, 
Епа=>\&һапа\е епа, 
}); 
фрагѕег->рагѕе#і1е( ѕһ1ҒЕ @АКСУ ) ; 


пу @е\етепї _ѕїаск; # Помните об открытых элементах. 


# Обработка события начало-элемента: вывод на печать 
# сообщения об элементе. 
1 
зар папа1е ѕёагё { 
пу ( Ѕехрас, $е1етепї, $асігѕ ) = @ ; 


# Запрос объекта ехраЕ о нашей позиции. 
пу $1іпе = $ехраё- >сиггепї 11пе; 
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ріл "І зее ап $е1етепї е1атепі сахі са ше 511іпе! \п"; 
Запоминание элемента и его начальной позиции путем 


помещения небольшого хэша в стек элементов. 
риѕћ( @е1етепї 5їаск, { е1етепї=>$е1етепї, 1іпе=>$1іпе }): 


1Е( Жаїїгѕ ) { 
ргіпе "ТЕ Баз іһеѕе аіігірџоёеѕ: \п" ; 
мһіле( пу( $Кеу, 1Іуа1џе ) = еасһ( Жаїїгѕ )) { 
ріп "\ЕбКеу => $уа1џе\п"; 


} 
} 


# Обработка события конца элемента. 

1 

зар һапа1е епа { 

пу ( Ѕехрас, $%е1етепї ) = @_; 

Мы просто выталкиваем элемент из стека, 

встретив корректный завершающий элемент, в отличие от 

ситуации с доморощенной формальной корректностью, когда 

ХМЕ: :Рагзег "громко возмущается" при наличии 

# ошибок, связанных с нарушением формальной корректности 

пу Ѕе1етпепё гесога = рор( @е1іетепї ѕїаск ); 

ргіпі "І ѕее һа $е\етепї е1етепі (Паб збагбейя оп 1іпе " 
ббе1етепе_гесога{ 1іпе }, " 1$ с1оѕіпао пои. \п"; 


Й 


} 


Разобраться в том, как выполняется этот процесс, не составляет никакого тру- 
да. Просто были разработаны две процедуры обработчика, ћапа1е ѕїагї() и 
Папа1е_еп4(), причем каждая из них регистрируется вместе с конкретным со- 
бытием при вызове метода пем(). При использовании метода рагѕе() анализа- 
тор «знает» о наличии обработчиков событий начала и конца элемента. Каждый 
раз, когда анализатор находит начальный тег элемента, вызывается первый об- 
работчик, которому передаются имя и атрибуты элемента. Таким же образом, при 
обнаружении завершающего тега вызывается другой обработчик, которому так- 
же передастся специфичная для элемента информация. 


Обратите внимание на то, что анализатор передает каждому обработчику ссыл- 
ку под именем $ехраї. Эта ссылка устанавливается на объект ХМ І: :Рагзег: : Ехраф, 
интерфейс нижнего уровня для Ехра{. Подобная ссылка обеспечивает доступ к 
информации, которая может оказаться полезной для программы (например, номе- 
ра строк и глубина вложенности элемента). Вы также можете воспользоваться по- 
добными сведениями с целью выполнения анализа документов. 

Не хотите ли посмотреть на пример выполнения программы? Далее приво- 


дится результат обработки документа базы данных заказчиков, приведенной в 
листинге 1.1: 


| ѕее а ѕрат-доситегі еіетепі ѕіагііпо оп пе 1! 
№ Газ Шезе аїїігіриїеѕ: 
уегѕіоп => 3.5 
ќімеѕќатр => 2002-05-13 15:33:45 
І ѕее а сазбомег еіепепі ѕбагііпо оп 1іпе 3! 
І ѕее а ЕлузЕ-папе е1етепі ѕбагііпо оп 1іпе 4! 
І зее һа һе Еі г51- пате е1етепе аб ѕсаусей оп1іпе4 1$ с1оѕіпо пом. 
І ѕее а эштпапе е1етеп& ѕбагііпо оп пе 5! 
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| ѕее іһаї {пе ѕитате еіетепі іһаї ѕіагіеа оп 11пеб 1$ сіоѕіпо пом. 

1 ѕее а адагеѕѕ еіетепі ѕїагїіпо оп Ппе 6! 

| ѕее а ѕігееї еіетепі ѕіагїіпо оп пе 7! 

| ѕее {һаї Ме ѕїгееї еіетепі {һаї ѕіагіеа оп Ііпе 7 іѕ сіоѕіпо пом. 

| ѕее а сіїу еіетепї ѕїагііпо оп Ипе 8! 

| ѕее іһаї 1пе сіїу еіетепі {Пат ѕїагіеа оп Ііпе 8 іѕ сІоѕіпо пом. 

| ѕее а ѕїаїе еІіетепі ѕїагііпо оп Ііпе 9! 

| зее їһаї іһе ѕїаїе еіетепі {һаї ѕіагїеа оп 1іпе 9 іѕ сІоѕіпо пом. 

| ѕее а гір еіетепі ѕїагііпо оп пе 10! 

| ѕее іһаї їһе 7р еіетепї іһаї ѕіагїеа оп Ппе 10 іѕ сІоѕіпо пом. 

1 ѕее {Пат Ме ааагеѕѕ е1етепі іһаї ѕїагіеа оп 11ілеб 1$ сіоѕіпо пом. 

| ѕее а ета! еіетепі ѕїагііпо оп Ііпе 12! 

| ѕее їһаї {Пе етайЙ еетеп{ іһаї ѕїагіеа оп Ііпе 12 15 сІоѕіпо пом. 

| ее а аде еіетепі ѕіагїіпо оп 1іпе 13! 

| ѕее їһаї {Не аде еетеп{ іһаї ѕїагіеа оп Ііпе 13 іѕ сІоѕіпо пом. 

| ѕее {Пат Ме сиѕіотег е1 етеп {Па{ ѕїагіеа оп 1іпез іѕ сіоѕіпо пом. 
[... ѕпірріпо оіһег сизютег$ Тог бгеуіїу'ѕ ѕаке ...] 

| ѕее їһаї ће ѕрат-доситепї еіетепї {һаї ѕіагїеа оп Ііпе 11$ сІоѕіпо пом. 


В этом примере снова использовался стек элементов. На самом деле вовсе пе 
‘требуется хранение имен элементов самих по себе. Один из методов, применяе- 
мых пользователем, заключаемся в вызове объекта ХМЕ : : Рагзег: : Ехрае. В резуль- 
тате этого возвращается перечень текущего содержимого, упорядоченный в хро- 
нологическом порядке перечень всех элементов, проверенных пользовательским 
анализатором. В любом случае применение стека обеспечивает хранение допол- 
нительной информации например номеров строк. Это означает, что события мо- 
гут создавать структуры произвольного уровня сложности в «памяти» о прошлом 
документа. 


Подлежат обработке и многие другие типы событий. Например, ничего нельзя 
сделать с символьными данными, комментариями и инструкциями по обработкс. 
Однако в рамках данного примера нам вовсе пе требуется рассмотрение подобного 
типа событий. Тем более что в следующей главе приводятся многочисленные при- 
меры обработки событий. 

Прежде чем завершить тему обработки событий, упомянем еще об одном 
объекте — библиотеках Зпире АРІ, применяемых для ХМГ-обработки (ЅАХ). 
Используемая в этом случае технология напоминает рассмотренную ранее мо- 
дель обработки событии, за одним лишь исключением. В данном случае приме- 
няется стандарт, одобренный консорциумом УЗС. Благодаря этому обстоятель- 
ству стандартизируется канонический набор событий. Также внедряется метод 
обработки этих событий. В результате образуется стандартный интерфейс, по- 
зволяющий объединять различные программные компоненты с целью их совме- 
стного применения. Если вам не нравится применяемый анализатор, просто вос- 
пользуйтесь другим анализатором (либо такими сложными инструментами, как 
семейство модулей ХМ. : : ЗАХ ‚ с помощью которых можно выбирать анализатор 
на основе требуемых свойств). При этом не имеет значения источник ХМГ-дан- 
ных (база данных, файл либо перечень покупок' вашей матушки). Инструмент 
ЗАХ является весьма привлекательным для сообщества пользователей Ре!|, по- 
скольку всем уже порядком надоело отсутствие совместимости со стандартами и 
всеобщи! «вандализм». Теперь же поводов для критики стало заметно меньше. 
Подробное рассмотрение возможностей ЅАХ (изначальное название Ре $ АХ) 
производится в главе 5. 
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Анализатор ХМІ: :Е1ЬХМЕ, подобно ХМІ: : Рагѕег, представляет собой интерфейс 
библиотеки языка С. Эта библиотека является частью проскта СМОМЕ' и назы- 
вается 1 ірхт1 2. В отличие от ХМ: :Рагзег, новый анализатор поддерживает базо- 
вый стандарт, применяемый при обработке ХМГ-деревьев. Этот стандарт называ- 
ется объектной моделью документа (Ооситепі Објесі Моае!, РОМ). 

Стандарт РОМ — еще один пример шумно разрекламированного ХМГ-стан- 
дарта. Он применяется для обработки деревьев, в то время как ЗАХ предназнача- 
ется для обработки потоков событий. Если вы склоняетесь к применению деревь- 
ев в своих программах и если допускаете вероятность повторного применения 
различных источников данных, воспользуйтесь стандартным решением с возмож- 
ностью его изменения в дальнейшем. Дополнительные сведения о стандарте ПОМ 
и связанных с ним вопросах можно получить в главе 7. 

Ну а теперь пришло время продемонстрировать в действии другой анализатор. 
Не стоит «зацикливаться» на одном анализаторе, каким бы хорошим он ни был. 
И снова будет продемонстрирован простейший пример, не представляющий со- 
бой ничего особенного. Задача этого примера будет заключаться лишь в вызове 
анализатора и демонстрации его в действии. Давайте разработаем другой инстру- 
мент разбора документов, подобный тому, который разрабатывался в листинге 3.5. 
На этот раз в задачи инструмента входит отображение частоты распределения эле- 
ментов в документе. 

Код разработанной программы приводится в листинге 3.(3. Здесь приводится про- 
стой пример анализатора, для которого не устанавливались опции. Фактически ана- 
лизатор выполняет синтаксический разбор дескриптора файла и возвращает РОМ - 
объект, представляющий собой древовидную структуру хорошо спроектированных 
объектов. Программа ищет элемент документа, а затем обходит все дерево одного эле- 
мента в то время, когда обновляются счетчики частоты распределения хэш-данных. 


Листинг 3.6. Программа подсчета частоты распределения 


ие ХМ: : Е1ЪХМЬ ; 

ие 10: :Напа\е; 

# Инициализация анализатора. 

пу брагзег = пем ХМ: : 1 1ЫХМі; 

# Открытие дескриптора файла и синтаксический разбор. 
пу СЕ = рем 10: : Напа1е; 


1Е( ЅҒ#Ћ->Ғаореп ( 111епо{ 5ТрІМ ), "г" )) { 
пу 5дос = $рагѕег->рагѕе ?ћ( 5 ); 
пу %015#; 


&ргос поаде ( %бос-> реїроситепЕ1 етеп, \%015ї ); 
Ғогеасһ шу Ѕібет ( ѕогі Кеуз %415ї ) { 
ріп "Ѕібет: ", $91$6{ $1%ет }, "\п"; 
} 
Ф#һ->с1оѕе; 
} 


# Обработка узла ХМІі-дерева: если идет речь об элементе, 


'Длязагрузки модуля анализатора и комплекта сопровождающемдокументацииобратитеськ\\еь- 
узлу Һр://уҹуу.Шохт.Огр/. 
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# обновляется список распределения и обрабатываются 
# все потомки. 
# 
зир ркос поде { 
му ( Ѕподе, $4154 ) =@; 
герип ип1еѕѕ( бпоае->подеТуре ес &ХМі ЕГЕМЕМТ_М№ОВЕ ); 
ѕа1ѕі->{ $пойе->пойеМате } ++; 
Ғогеасһ шу Ѕсһі1а ( $поде->реїсһі 1апойеѕ ) { 
&ргос поде( %сһі1а, $9156 ); 
} 


} 


Обратите внимание, что вместо указания простого пути к файлу, используется 
объект дескриптора файла из класса 10: : Нап е. Возможно, вы уже знаете, что 
дескрипторы Регі-файлов являются «шустрыми и магическими бестиями», пере- 
дающими программе символы из самых различных источников: файлов на диске, 
открытых сетевых сокетов, потоков данных, вводимых с клавиатуры, баз данных, 
а также всех прочих источников данных. Как только был определен источник де- 
скриптора файлов, в распоряжении пользователя оказывается интерфейс, обеспе- 
чивающий выполнение аналогичных операций считывания для любого дескрип- 
тора файла. Это обстоятельство идеально соответствует используемой нами 
ХМЕ-идеологии, когда при разработке кода ставится задача достижения макси- 
мальной степени гибкости и способности к повторному применению. В результате 
ХМГ-код не «заботится» о своем происхождении, а у программиста отсутствует 
возможность его привязки к какому-либо тину источника. 

После завершения стадии синтаксического разбора анализатор возвращает 
объект документа. Этот объект включает метод, который возвращает ссылку на 
элемент документа. В данном случае элемент документа представляет собой ко- 
рень всего дерева. Программисты используют эту ссылку в качестве исходной для 
рекурсивной процедуры, ргос_по4е(). Эта процедура обрабатывает элементы, 
внося запись в хэш-переменную всякий раз, когда встречается какой-либо элемент. 
Полезность рекурсии при написании программ, обрабатывающих ХМГ-код, мо- 
тивируется тем, что структура документов напоминает фрактал: одни и те же пра- 
вила применяются на любом уровне либо позиции в документе, включая корневой 
элемент, представляющий весь документ. Обратите внимание на проверку «типа 
узла», которая выделяется среди элементов и других частей документа (например, 
части текста или инструкций по обработке). 

При нахождении процедурой любого элемента производится вызов метода объек- 
та, реїСһі1апоаеѕ(), обрабатывающего потомки этого элемента. Именно в факте 
наличия подобного вызова коренится различие между методологиями, основанны- 
ми на потоках и деревьях. Вместо того чтобы сделать поток событий «ведущим ко- 
лесом» программы и передавать ему данные для обработки, осуществляется вызов 
процедур и блоков кода в некотором непредсказуемом порядке. Причем программа 
несет ответственность за выполнение навигации в пределах документа. Традицион- 
но начало обработки определяется корневым элементом, затем обработка распрост- 
раняется далее. Обработка потомков производится в направлении от первого к пос- 
леднему элементу. И поскольку мы не находимся под контролем анализатора, можем 
просматривать документ любым способом. Возможен обратный проход, просмотр 
части документа, либо многочисленные обходы дерева. Ниже приводится резуль- 
тат обработки небольшой главы, находящейся в ХМГ-документе ЮосВоок: 
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$ х#гед < сп03. хи1 
сһаріег: 1 
сібебіб1е: 2 
Ғігѕісегтм: 16 
Ғооёпоёе: 6 
#огеірпрһћгаѕе; 2 
Ғопсбіоп: 10 
іїетіғеа115ї: 2 
1151ібет: 21 
11тега1: 29 

пое: 1 
огаегеа1ї5ї: 1 
рага: 77 
рговгамііѕіпв: 9 
гер]1асеа 1 е: 1 


зсгееп: 1 
ѕесїііоп; 6 
8т1{а8: 8 


ѕімріеѕесї: 1 

зузтем1 ет; 2 

сет: 6 

бе: 7 

уахі ар1е1їѕї: 1 

маг1ізѕёепігу : 6 

хгеЁ: 2 

В результате отображается всего лишь несколько строк кода, но за этим скры- 
вается большой объем работы. Опять-таки, благодаря использованию базовой 
С-библпотеки код получается достаточно быстрым. 


Анализатор ХМЕ::ХРай 


До сих пор рассматривались примеры анализаторов, предназначенных для обра- 
ботки всего документа. Однако зачастую в этом нет никакой нужды. Например, 
при выполнении запроса к базе данных обычно идет поиск только одной записи. 
При «взломе» телефонной книги вряд ли вам потребуется вся хранящаяся в ней 
информация. Следовательно, требуется некий механизм, определяющий выборку 
специфичной информации из обрабатываемого документа. В этом случае идеаль- 
ным будет инструмент ХРаѓһ. 

Выбор этого инструмента рекомендуется разработчиками языка ХМІ.!. Он яв- 
ляется базовым при создании выражений, применяемых для указания специфич- 
ных частей документа. Можете себе представлять все это в виде некой схемы 
адресации. И хотя подробности и детали применения инструмента ХРаі будут 
приведены в главе 8, сейчас просто скажем о том, что все это работает как и при 
совместном использовании регулярных выражений и путей к файлам в стиле 
Цих. Неудивительно, что это привлекательное свойство желательно включат!) в 
состав анализаторов. 

Модуль ХМі : : ХРа®, разработанный Мэттом Сержантом (Май Ѕегвеапі), пред- 
ставляет собой основательную реализацию, созданную на основе ХМ: :Рагзег. По- 
лучая ХРа-выражения, он возвращает перечень всех частей документа, сопоста- 


* Обратизесь к соответствующей спецификации по адресу ћір://Лм.мЗ.огс/ТВ/храйћ/. 
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вимых с описанием. При этом обеспечивастся весьма простой способ выполнения 
сложных операций поиска и выборки, 


Например, пусть в вашем распоряжении имеется адресная книга, созданная с 
помощью базовой формы ХМГ-кода: 


<сопсасёѕ> 
<епігу> 
<пате>Вор Ѕ5пор</паме> 
<еігееі>123 Р1Табуриз і апе</ѕїгееї> 
<с1Еу> Вигроро\1іѕ</сіїу> 
<ѕ5іаће>Рі </5їаїе> 
<21р>12345</72ір> 
</епіху> 
<1—3десь могут быть дополнительные записи-> 
</сопіасёѕ> 


Допустим, что требуется осуществить выборку из файла всех почтовых индек- 
сов и скомпилировать их в виде списка. В листинге 3.7 показано, каким образом 
все это делается с помощью анализатора ХРа{. 


Листинг 3.7. Программа-экстрактор почтовых индексов 
изе ХМ: : ХРаїћ; 
пу %*:1е = ‘сизфомег$. хи‘; 
пу Ѕхр = ХМі : : ХРатһ- >пем (11 1епате=> $1112); 
# Набор узлов ХМЕ::ХРаїһ представляет собой объект, 
# содержащий результаты оценивания ХМГ-документа с 
# применением Храїһ-выражений: мы просто собираемся 
# сделать это, а затем запросить набор узлов 


# для просмотра того, что мы можем получить. 
ту Ѕподеѕеб = $хр->?іпа('//21р'); 


му @21рсоаеѕ; # Здесь помещены результаты 
1Е (ту @подбет1$т = бподезес->дее побєе1їѕё) { 

Мы нашли почтовые индексы! Каждый узел — объект 
класса ХМ `: ХРатћ: : Моде: : Е1емепї. поэтому мы 
воспользуемся методом класса '$&г1пв уа1ие' 

# для выборки подходящего текста, а результаты 
выборки для всех узлов помещаются в массив. 
@71рсодез = тар (5 ->5ѕігі пе уа\іице , @побе1151) ; 
Сортировка и подготовка для вывода 

@7ірсойеѕ = ѕ0гї (@7ірсойеѕ) ; 


Іоса1 $" = "\п"; 
ргіп "І Ғоша Єһеѕе ғ \ірсойеѕ : \п@хірсойеѕ\п" : 
}е1ѕе { 


ргіп "Тһе Ее Ѕ#і1е аіап'Е Һауе апу ‘тр’ е1емепёѕ іп 16!\0"; 
} 
Запустите программу на выполнение, воспользовавшись документом, содержа- 
щим три записи, В результате будет получено следующее: 


І Ға Безе хірсодеѕ: 


Этот модуль также демонстрирует пример синтаксического разбора, основан- 
ного на деревьях. Причем в этом случае анализатор загружает весь документ в де- 
рево объекта, имеющего специфическую конструкцию. Затем пользователю раз- 
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решается избирательно взаимодействовать с частями дерева с помощью ХРа!- 
выражений. Рассматриваемый пример является лишь образцом того, что можно 
получать с модулями расширенной обработки деревьев. Дополнительные сведе- 
ния относительно этих модулей можно найти в главе 8. 

Объекты элемента ХМІ : : 1 10ХМі поддерживают метод #1п4поде$ (), функцио- 
нирующий аналогично ХМІ: :ХРаѓһћ. При этом в качестве текущего содержимого 
применяется вызов объекта ЕІетепі и возвращается список объектов, соответ- 
ствующих запросу. Эти функциональные свойства рассматриваются в главе 10. 


Проверка достоверности документа 


Соответствие требованиям формальной корректности является необходимым ус- 
ловием при обеспечении корректности ХМГ-кода. При этом ХМГ-процессоры 
многое просто не проверяют. Если попытаться создать документ, удовлетворяю- 
щий некоторым спецификациям, указанным для ХМГ-приложений, могут возник- 
нуть затруднения. Причем затруднения возникают в том случае, если генератор 
содержимого пропускает необычный элемент, который никогда не встречался ра- 
нее, а анализатор не обращает на это ни малейшего внимания. К счастью при про- 
верке в подобном случае доступен высший уровень контроля — проверка досто- 
верности документа. 

Проверка достоверности представляет собой сложный процесс сравнения экзем- 
пляра документа с шаблоном либо спецификацией грамматики. При этом может 
ограничиваться количество и тип используемых элементов документа, а также кон- 
тролируется их местоположение. Можно даже настраивать шаблоны символьных 
данных для любого элемента либо атрибута. Проверяющий анализатор сообщает о 
том, будет ли корректным данный документ в случае наличия схемы либо шаблона 
ОТО, с которыми и производится сравнение. 

Необходимо помнить о том, что не стоит осуществлять проверку достоверности 
любого ХМГ-документа. Объявления ОТР и схемы проверки достоверности хоро- 
ши в случае работы со специфическими языками разметки, основанными на ХМІ. 
(ХНТМЕ при работе с жер-страницами, Ма МТ. при работе с математическими 
уравнениями либо некоторыми другими языками). При этом применяются ограни- 
ченные правила по отношению к объектам и атрибутам. 

Проверка достоверности документа не требуется в случае, если возможности 
Ре! и ХМІ. используются для выполнения менее специфичных задач, таких как 
быстрое объединение и анализ существующих ХМГ-документов, использование 
экзотических форматов данных. 

Как правило, если вы ощущаете потребность в выполнении проверки докумен- 
та, лучше прислушаться к своим ощущениям. Операция проверки документа яв- 
ляется обязательным условием в случае учета некоторых особенностей ХМГ, тре- 
буемых в целях достижения совместимости с определенным стандартом. Ваш набор 
инструментов обеспечивает множество способов для выполнения проверки доку- 
ментов. 


Объявления ОТО 


Объявления типов документа (Ооситепї їуре ӣеѕсгіріоп, ОТО) — документы, 
написанные с применением специального языка разметки, определенного в ХМІ- 
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спецификации. Тем не менее, эти объекты не относятся к ХМІ. Все, что находится 
внутри этих документов, называется объявлениями. Все объявления начинаются 
разграничителем < ! и включают четыре области: элементы, атрибуты, сущности и 
записи. 


В листинге 3.8 содержится описание простого объявления ОТО. 
Листинг 3.8. Небольшое объявление ОТО 


<!ЕТЕМЕМТ тето (бо, Ёгот, меззаве)> 

<!АТТЬТ5Т пепо ргіокібу (игвепё | погта1 | їп?о) 'похкта1'> 
ТГУ $ сехі-опіу " (#РСРАТА) *"> 

<ТЕГЕМЕМТ Со #ехї-оп1у; > 
ЕМЕМТ Еусм $Бехё-оп1у; > 

<1ЕГЕМЕМТ теѕѕаде (#РСРАТА | етрра$1$)*> 

<!ЕТЕМЕМТ етрћаѕіѕ %{ех{-оп1у; > 

<!ЕМТТТУ тупате "Вагїһћо1отиѕ Сп1851и МсМивреї" > 


В приведенном примере ОТО объявляются пять элементов, атрибут элемента 
<тето>, параметр сущности, упрощающий другие объявления, а также сущность, 
которая может использоваться внутри экземпляра документа. Проверяющий ана- 
лизатор может одобрять или отклонять документ на основе этой информации. Рас- 
смотрим следующий пример: 


<! ООСТУРЕ тело СУЭТЕМ "/аїаѕіиҒ#/тето. аа" > 
«пето ргіогіёу=" іп?о"> 

<Бо>бага Ве1 Пл /бо> 

<Егот>&тупамте ; </ Ёгот> 

<пеѕѕасде>біор геабіпо тетоѕ апа ое раск бо могк! </теѕѕаве> 
</тето> 


Если из документа удалить элемент <їо>, это может привести к нарушению кор- 
ректности документа. Программа проверки формальной корректности не способна 
обнаруживать отсутствие подобных элементов. Потому в этом случае понадобится 
выполнение проверки документа. 


Известно, что синтаксический разбор объявлений ОТР не составляет особого 
труда. Учитывая это обстоятельство, некоторые ХМГ-процессоры общего назна- 
чения могут осуществлять проверку достоверности документов на основе синтак- 
сического разбора соответствующих объявлений ОТО. Анализатор ХМЕ: : ЦЫХМІ. 
относится к подобным программам. Код простого анализатора, выполняющего про- 
верку достоверности, приводится в листинге 3.9. 


Листинг 3.9. Анализатор, выполняющий проверку достоверности 


изе ХМ: :Е16ХМі: 
це 10: : напале; 


# Инициализация анализатора. 
пу Ѕрагѕег = пем ХМ: : 11ЫХМЕ ; 


# Открытие файлового дескриптора и разбор. 
пу 5 = пет 10::Напа1е: 
1Е( $#һ->#аореп( Р11епо( 5ТрІМ ), "х-" )) { 
пу 5аос = брагзег->рагзе Ё ( ѕ$#Ь ) 
іЁ( баос апа $аос->1ѕ маііа ) { 
ріп "Упр, і'ѕ уа1іа. \п"; 
> е1ѕе { 
рип "Үікеѕ! Уа1іаібу еггог.\п"; 


} 
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Ф? ->с1оѕе; 

} 

Описываемый анализатор может быть легко встроен в любую программу, тре- 
бующую проверки достоверности входных документов. К сожалению, в этом слу- 
чае не предоставляется какая-либо информация, конкретизирующая возникшую 
проблему (например, элемент, находящийся на неподходящем месте). Но этой 
причине подобный анализатор не может использоваться в качестве ипструмента 
проверки достоверности общего назначения‘. Лучше воспользоваться анализато- 
ром ХМІ : : Сһескег, разработанным Т. Дж. Мэттером (Т. Ј. Ма ег). В результате 
его применения генерируются отчеты о специфических ошибках, связанных с про- 
веркой достоверности данных. 


Схемы 


Объявления ОТО имеют свои ограничения, в силу которых невозможно прове- 
рить тип символьных данных, назначенных элементу, а ‘также факт совпадения 
этого элемента с тем либо иным шаблоном. Что же делать, если анализатор должен 
сообщать о том, что элемент <даїе> поддерживает пскорректный формат даты либо 
включает неправильный адрес? В этом случае придется прибегнуть к решению под 
названием ХМ], Ѕсһета. Документ ХМІ. Зсйета можно охарактеризовать как 
объявление ОТР второго поколения, обладающее дополнительными возможнос- 
тями и гибкостью, реализуемыми в процессе проверки документов. 


В главе 2 уже упоминалось о том, что ХМІ, Ѕсһета слывет одной из наиболее 
противоречивых схем (по крайней мере, среди хакеров) в семействе ХМГ-про- 
грамм, определенных в спецификации УУЗС. Большинство пользователе! совсем 
не против концепции схем как таковых, но им не правится реализация Х М1. Ѕсһета 
в силу се громоздкости и невозможности эффективного применения. 

В качестве альтернативы ХМГ, Ѕсһета можно рассматривать ВеахМС. разра- 
ботанный ОА515-Орер (һћір://уу.оаѕіѕ-ореп.оге/соттііќееѕ/тејахпв/), и Ѕсһеіпаїгоп, 
разработанный Риком Джелиффом (Віск ЈеШќе) (ВЕр://ллим.азсс. пеУхтИгезоигсе/ 
ѕсһегпаїгоп/ѕсһетаїгоп.һїті). Как и в случае с ХМ Г. Ѕсһета, эти спецификации дета- 
лизуют ХМГ-языки, используемые для описания других ХМГ-языков, При этом 
программа, взаимодействующая с той пли ино! схемой, может использовать ее для 
проверки достоверности других ХМГ-документов. Программа Ѕсһетаїгоп особо 
интересна, поскольку в ее состав входит Рег!-модуль, позволяющий использовать 
ее на временной основе (в форме семейства функций ХМ! : : Ѕсһетаїгоп, 'разрабо- 
танного Кином Хэмптоном (Кір Нашрюп)). | 


Программа Ѕсһеіпаїгоп представляет особый интерес для хакеров, использу- 
ющих возможности Реті и ХМГ. Это связано с тем, что программа реализует над- 
стройку существующих популярных ХМГ, технологий, для которых уже имеют- 
ся Рег!-реализации. Она помогает при определении простейшего языка, с помощью 


' Авторы книги предпочитают использовать, инструмент, работой в режиме комапдпой строки, 
пѕдтіѕ, доступный на \еб-узле һір://ууу јдагк.сот. Проверка достоверности произвольных докумен- 
той может также выполняться па общедоступных м сђ-узлах, таких как Мир: лили. 559 .Бгомут.еду/зегуксе/ 
хтіпаіа. Обратите внимание, что в этих случаях ХМІ.-документ должен включать объявление 
РОСТУ?РЕ. Причем системный идентификатор должен содержать разретиамую ссылку (Кі. отлич- 
ную от пути, определенного в системе. 
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которого возможно перечисление и группирование конструкций, которые выгля- 
дят подобно ХРа\-выражспиям. Вместо опережающей грамматики, в которой пе- 
речисляется и определяется все, что может отображаться в документе, можно ус- 
танавливать достоверность лишь части структур документа. Можно проверять 
достоверность элементов и атрибутов на базе условий, охватывающих другие ча- 
сти документа (здесь идет речь о тех частях документа, которые «попадают в сфе- 
ру влияния» ХРа!-выражепий). На практике документ, созданный с помощью 
Ѕсһетаїгоп, выглядит и ведет себя подобно таблице стилей Х$ГТ. Благодаря это- 
му обстоятельству документ может быть полностью реализован с помошью ХУЕТ. 
Фактически функционирование двух Регі-модулей ХМ! : : $сһетаёгопосуществ- 
ляется путем первичного преобразования документа схемы, определенного 
пользователем, в ХЅ1.Т-таблицу. Затем продукт преобразования просто переда- 
ется ХЭ Т-процессору. 

В программе ЗсНетайгоп отсутствует типизация встроенных типов данных, поэто- 
му, например, невозможно выполнить однословную проверку с целью обеспечения 
соответствия атрибута с форматом данных МЗС. Однако Регі-программа может вы- 
полнить отдельный шаг, в ходе которого реализуется метод, определенный на ваше 
усмотрение (даже с помощью модуля ХМ: :ХРаіћ). Этот метод реализует просмотр 
атрибутов данных и выполнения регулярных Регі-выражений, в качестве аргументов 
которых выступают просматриваемые атрибуты. Обратите внимание на то, что языки 
схем не поддерживают методы запроса содержимого элемента в базе данных, а также 
не используются для выполнения любых действий, не предназначенных для обработ- 
ки документа. Поэтому интеграция возможностей схем и Рей будет весьма полезной. 


Модуль ХМЕ: М/гіїег 


По сравнению с заданиями, которые выполнялись до сих пор в этой главе, написа- 
ние ХМГ-кода представляет собой простейшую задачу. Простота создания этого 
кода объясняется тем, что программа снабжена полностью контролируемой струк- 
турой данных. Поэтому не требуется предусматривать какие-либо случайности, 
происходящие при обработке входных данных. 

ГенерированиеХМ[-кода не связано с какими-либо особыми проблемами. Пользо- 
ватель располагает информацией об элементах, обладающих начальными и заверша- 
ющими тегами, их атрибутами и прочими сведениями. Конечно, создание метода вы- 
вода ХМГ-кода, учитывающего все подробности, представляется довольно скучным 
занятием. ведь потребуется ответить на целый ряд вопросов. Былили вставлены про- 
белы между атрибутами? Были ли закрыты открытые элементы? Был ли включен 
слэш в конце пустых элементов? Как правило, подобными вопросами не задаются до 
тех пор, пока не создастся более или менее важный код. Еще один способ обработки 
подобных деталей заключается в создании специальных модулей. 

Модуль ХМ. : : Мг Иег‚созданный Дэвидом Мэггиисоном (Юауіа Мезе1пзоп), 
является превосходным примером абстрактного интерфейса, обеспечивающего ге- 
нерирование ХМГ-кода. Этот интерфейс поставляется вместе с набором простых 
и полезных методов, обеспечивающих создание любого ХМГ-докумепта. Просто 
создайте объект, предназначенный для написания кода, и вызовите его методы, 
обеспечивающие создание потока ХМГ-кода. Некоторые из применяемых в дан- 
ном случае методов перечислены в табл. 3.1. 
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Таблица 3.1 Методы модуля ХМЁ: :М/Жег 


Имя Функция 


епа () Закрывает документ и выполняет простейшую 
проверку формальной корректности 


(т.е. проверяется наличие одного корневого 
элемента, а также наличие завершающих тегов 
для каждого начального тега). Если установлена 
опция ОМ№ЅАҒЕ, проверка большинства правил 
формальной корректности не выполняется 
хтіресі([$%епаоаіпо, $5тапда1опе]) В верхнюю часть документа включается 
ХМЕ-объявление. 
Версия жестко кодируется в виде "1.0" 


босїуре ($паме, {[%рибю1 іста, Добавление объявления типа документа 
$5уѕіетї0]) в верхнюю часть документа 
сомтепї ($ ех) Включение ХМІ-комментария 
рі(Фїагдеї [, $Чафа]) Вывод обрабатываемой инструкции 
ѕїагіТад($пате [, $апате! => Создание начального тега элемента. В качестве 
$уа1ие1, .. .]) первого элемента выступает имя элемента, 

за которым следует пара «имя-значение» 
етрїуТао(Фпате [, $апаме1 => Устанавливает пустой тег элемента. Применяемые 
$уаіиеі, .. .]) в этом случае аргументы будут теми же, 

что и в случае с элементом ѕіагіТадо 
епатао([Фпате]) Создает завершающий тег элемента. 


Не включайте аргумент, если хотите автоматически 
закрыть текущий открытый элемент 


ЧатаЕ1етеп{ ($лате, $ааїа [, Вывод на печать элемента, содержащего только 
$апате => $уа1ие1, ...]) $апате => символьные данные. Этот элемент включает 
$уа!ие!, ...]) начальный тег, данные и завершающий тег 
сһагасїіегѕ ($8аїа) Вывод части символьных данных 


Благодаря использованию перечисленных процедур можно создавать завер- 
шенныс ХМГ-документы. Например, программа из листинга 3.10 создает базо- 
вый НТМГ-файл. 


Листинг3.10. НТМЕ-генератор 


иѕе 10; 
пу ФоиериЕ = пем 10: : Еі1е(">оиЁриї. хті"); 


изе ХМ ::Мгіїег; 
пу Ѕуплібег = пем ХМІ::Мгіїег( ООтРОт => Ѕооёроё ); 


Фит ћег- >хтіресі( '"ОтЕ-8' ); 

Ѕигі сег->дӢосёсуре( "ҺЁм1' ); 

бита Кег->соттепї ( 'Му Һарру 1ісс1е НТМЬ раве' ); 
иші їег->рі( 'Ғоо', 'раг' ); 

ті сег->ѕбагіТас( 'Һт1'); 

Ѕисі сег->ѕёагітТао( ‘оду’ ); 

фиеіёег->ѕїагтТав( "һ1'); 

$мгіег- >5їагіТар ( " Ғопь', 'со1ог' => 'гееп' ); 
$иг1 Сег->спагасфег$( "<не11о Мог1а! >" ); 

буті сег->епатас( ) ; 

$игіег->епатав( ) ; 

$мгібег- >датаЕ\етеп ( "р", "Мусе ко вее уоц." ); 
блі сег->епатас( ) ; 

$1 бег->епатас( ); 

фигіїег->епа( ); 
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В результате выполнения примера выводятся следующие данные: 


<?хт1 мегѕіоп="1.0" епсодіпр= "ОТЕ -8"?> 

<1РОСТҮРЕ һїті> 

<!- Му Һароу Ше НІМ, раде -> 

<?Еоо Баг?> 

<Һітмі > <роду> <ћ1><Ғопі со1ог=" ргееп" >&1+; Не1 10 Мог1а! &р 1; </ Ғопі> 
</><р>М№се їо ѕее уои . </р></роау></һіті> 


В этот модуль встроены небольшие и приятные «удобства». Так, автоматичес- 
ки производится обработка недопустимых символов (например, символам опер- 
санда, &) путем его преобразования в соответствующие объектные ссылки. Также 
заключаются в кавычки значения сущностей. В процессе построения документа 
проверяется содержимое, в котором вы находитесь, с помощью предикативных ме- 
тодов, таких как м1 {Н1п_е1етепе ("Ғоо"). Этот метод сообщает о том, что элемент 
"Гоо" является открытым. 

По умолчанию модуль отображает документ вместе со всеми активными тега- 
ми. В некоторые области ХМГ-кода можно включить пробелы с целью улучшения 
его восприятия. Если опции МЕМ:ТМЕ$ присвоить значение їгие, после тегов эле- 
ментов будут включаться символы новых строк. Если установить значение опции 
РАТА _ МОРЕ, достигается подобный эффект. В результате можно комбинировать 
значения опций ВАТА_МОБЕ и ВАТА_ТМОЕМТ с целью формирования автоматических 
отступов строк. Как следствие, обеспечивается генерирование красиво оформ- 
ленного документа. 

Благодаря наличию подобных замечательных свойств возможно применение кода 
с целью структурирования любого вида текстовых данных. Модуль ХМІ: :Мгіїег 
позволяет быстро внедрять большой объем информации в ограниченный прави- 
лами формальной корректности документ. Например, можно включить листинг 
каталогов в иерархическую базу данных (листинг 3.11). 


Листинг3.11. Генератор каталогов 


ие ХМ: :Мгіїег; 

пу ис = рем ХМ: :йгісег( ОАТА МОрЕ => '‘гие', РАТА ІМРЕМ№Т => 2 ); 
&а5_хт1( ѕ=һі#і ФАКСУ ) ; 

$иг->епа; 


# Рекурсивное отображение каталога в ХМГ-код. 
1 
эор аѕ хмі { 

пу бра = 61; 

тебохп оп1еѕѕ ( -е Ѕраёћ ); 


# Если это каталог, создайте элемент и 
# наполните его деталями. 
1Е( -а фраїћ ) { 
Ѕу->ѕбагіТас ( '‘Фігесіогу', пате => Ѕраёћ ); 


# Загрузка имен элементов каталога 

# в массив. 

пу @сопїепїѕ = ( ); 

орепаі г( рік, Ѕраёћ ); 

мһіле( ту $16ем = геададіг( РТВ )) { 
пехі іЁ( фіїет ес '.' ок $16ем ед '..' ); 
риѕһ ( @сопїепїѕ, Ѕібет ); 

} 

с1оѕеаіг( ОТВ ); 
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# Рекурсивный поиск по элементам каталога. 
Ғогеасһ ту Ѕібет ( @сопїепїѕ ) { 

&аѕ хті( "Фраїћ/$ісет” ); 
} 


$иг->епЧТав{ 'аігесїосгу' ); 


# Мы воздержимся от вызова всего того, что не является 
# каталогом либо файлом. 
} ее { 
$иг->етртуТаё( 'Е11е', пате => Ѕраёћ ); 
} 


} 


Ниже приводится пример выполнения кода на основе выбранного каталога (об- 
ратите внимание на использование инструкций РАТА _ МОРЕ и ВАТА_ТМОЕМТ с целью 
улучшения восприимчивости кода): 


$ ~ /ріп/аіг /һоте/егау/хіоо15/ ХМ. -РОМ-1.25 


<аігесёогу пате=" /поме/егау/хїоо15/ ХМ -роОМ-1. 25" > 

<аігесїіогу пате=" / Һоте/егау/хіоо15/ХМі-рОМ-1. 25/1" > 
<Ше папе= " /поте/егау/ хїоо15/ ХМ -рОМ- 1. 25/ ё /аїїг.ї" /> 
<Ше пате =" /һоте/егау/хїіоо15/ ХМ -рОМ-1. 25//тіпиѕ.Ї" /> 
<#11е гате = " / поте/егау/хіоо15/ХМі-Ром-1.25/ї/ехатр1е. і" /> 
<Нте паще=" /поще/егау/ хіоо15/ ХМ - 004-1 .25//ргіпі.ї" /> 
<Ше пате=" / һоте/егау/хіоо15/ХМі-рОМ-1. 25/+/сдаїѓа.ї" /> 
<{11е пате=" / Һоте/егау/хїоо15/ХМі -роМ-1. 25//аѕїгеѕ5,ї" /> 
<#іЛе паще=" / поме/егау/хіооїіѕ ХМ -р0М- 1. 25/ї/тоаіту." /> 

</аїгесіогу> 

<#іЛе паме=" /Ноте/егау/х{001 $/ХМЕ-В0М-1.25/00М.в1Е" /> 

о пате=" / поме/егау/ хїоо15/ ХМ - 00-1. 25/ѕамр\іеѕ" > 
<{11е 
пате= " /ћоте/егау/хіоо15/ХМі -ромМ-1. 25 / ѕатр1еѕ / КЕС-хт1- 19980210. хт1" 
/> 

</аігесїогу> 

<Ше пате=" /Һоте/егау/хіоо15/ ХМі -рОМ- 1.257 МАМІРЕЅТ" /> 

<Ше пате=" /поте/егау/ хіоо15/ ХМ - ПОМ-1. 25 /Маке?і1е.Рі" /> 

<Ше паме=" /Һоте/егау/хіоо15/ХМі -р0М-1.25/Сһапвеѕ" /> 

<РіЛе пате=" /Һоте/егау/хіооіѕ /ХМі -рОМ-1. 25 /СһескАпсеѕїогѕ. рт" /> 

<Ше паме=" /поте/егау/хіоо15 / ХМ -0ОМ- 1. 25 /СтрбоМ. рм" /> 


Итак, мы завершили последовательное рассмотрение модуля ХМі : : У ет, вос- 
пользовавшись рекурси вным подходом. Этот подход также удобно применять при 
работе с объектами древовидной структуры, когда каждый тип ХМГ-объекта об- 
ладает собственным методом «приведения к строке». Этот метод предназначен для 
осуществления соответствующих вызовов объекта редактора. В любом случае, мо- 
дуль ХМ: :МгИег является весьма гибким и полезным в применении. 


Другие методы, применяемые для вывода информации 


Ранее уже рассматривалось, что многие модули-анализаторы обладают собственными 
методами, обеспечивающими вкюпочение их содержимого в состав ХМІ.-кола. Напри- 
мер, модульХМі : : [16ХМ обеспечивает вызов метода 105118 (), в качестве аргумента 
которого выступает весь документ либо произвольный объект элемента в составе доку- 
мента. Следовательно, более специфичные классы процессора, которые являются под- 
классами данного или какого-либо другого модуля, часто обеспечивают доступность 
одного и того же метода для собственных АР!. а также передают пользовательские вы- 
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зовы метода базовому объекту анализатора. Обратитесь к документации по процессору 
с целью выяснения того, поддерживается ли это или другое подобное свойство. 

И наконец, последнее, что нужно на этом этапе, — функция ргіпі языка Реп. Эта 
функция «обитает>> на уровне, который находится ниже инструментального уровня 
таких инструментов, как ХМ: :Мгіїег. При условии игнорирования специфичных 
правил и отношений ХМГ, эта функция обеспечивает улучшенную степень контро- 
ля над процессом преобразования структур памяти в текст, выводимый на экран. 
Если вы собираетесь выполнять особо сложную работу, функция ргіпі может облег- 
чить вашу задачу. Некоторые из аспектов применения этой функции рассматрива- 
ются в главе 10. Не забывайте заменять <! гадоедливые»символы < и & соответствую- 
щими объектными ссылками (см. табл. 2.1), либо заключайте их в секции СРАТА. 


Наборы символов и кодировки 


Независимо от выбора метода управления выводом программы, необходимо учи- 
тывать концепцию кодирования символов — протокол вывода ХМГ-документа, 
используемый для представления различных символов языка (алфавит, каталог 
идеограмм либо диакритические знаки). Кодировки символов могут представлять 
сложнейшую часть ХМГ-кода, особенно для программистов из стран Западной Ев- 
ропы и Америки, большинство из которых не знакомы с миром возможных коди-‘ 
ровок, отличных от 128-символьной АЅСП-кодировки. 

Объявление епсодтё ХМІ -документа может содержать имя произвольной схе- 
мы кодировки текста. В соответствии со спецификацией, ХМГ-процессоры допус- 
кают применение кодировок ОТЕ-8 и ОТЕ-16. Кодировки ОТЕ-8 и СТЕ-16 — под- 
множество Ошсоде — современной и мощной архитектуры символьной кодировки, 
позволяющей удовлетворять все потребности программистов. 

В этом разделе мы прервем рассмотрение интеграции Рей и ХМ Г и перейдем к 
рассмотрению Чтсоде. Хотя все примеры, описанные в книге, могут выполняться 
с применением различного рода наследственных кодировок, все же лучше перейти 
к использованию современного стандарта — Опісоае. 


Опісоаде, Рей и ХМЕ 


Кодировка Опісойе является своего рода «символом цифровой эры», обеспечи- 
вающим унификацию тысяч различных систем письменности, разработанных 
лучшими умами человечества на протяжении столетий. Конечно, если програм- 
ма выполняется в среде, использующей отличные от АЗСП символы, потребует- 
ся предварительное знакомство с НИМИ. В любом случае большинство программ 
обработки текста ограничены низкоуровневыми алфавитно-цифровыми симво- 
лами из набора Гат. Выбор этого набора символов диктуется его распростра- 
ненностью в Интернете. С появлением Отсо4е эта тенденция коренным обра- 
зом изменилась, а Ре! и ХМ. укрепили эти изменения. 

В любом документе, «пропагандирующем» достоинства документов Опісойе', 
утверждается о том, что Чп1со4е превосходно подходит для выполнения интерна- 


' Для получения доступа к этим документам воспользуйтесь разделом ЕАО, поддерживаемым кон- 
сорциумом ПЦио4е па лер-узле Һр://ипісоде.огд/ипісоде/ад/. 
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ционализации кода. Благодаря его применению программисты могут выполнять 
локализацию программ, не заботясь об адаптации различных символьных архи- 
тектур. 

Однако степень важности кодировки О1исо4е возрастает на порядок в случае 
возникновения потребности в представлении данных. Языки программирования, 
применяемые при составлении программ, могут отличаться, но еще большим раз- 
нообразием обладают языки, на которых общаются между собой люди. Благодаря 
использованию (Опісоӣе можно создавать единое представление для всех данных, 
независимо от применяемых языков либо архитектуры. 


Кодировки Шпісоде 


Проявляйте осторожность со словами «архитектура» и «кодировка», поскольку 
Опісоае фактически представляет одну из предшествующих кодировок, содержа- 
щих истоки всех последующих кодировок. 

В Опісоде каждый дискретный символ, имеющий официальное толкование, от 
А доаи ©, имеет собственный код — уникальное положительное число, являю- 
шееся адресом «карты» Чшсоде. Например, первой заглавной букве латинского 
алфавита соответствует шестнадцатеричный адрес 0х0041 (как и в случае с кода- 
ми АЗСП либо его родственниками). Другим двум символам, строчной греческой 
букве альфа и символу «смайлика», соответствуют шестнадцатеричные значе- 
ния, 0х03ВІ и 0х263А, соответственно. На основе этих кодов либо их комбинации 
может конструироваться любой символ. Многие коды символов выделены для 
хранения диакритических знаков, таких как знаки ударения либо радикалы. В ре- 
зультате многие сценарии представляют собой объединение основных алфавит- 
но-цифровых либо идеографических символов. 

Существует великое множество кодировок Опісойе. Основное различие между 
ними заключается в способе представления кодов символов. 

Официально (Опісойе поддерживает три типа кодировки, носящие общее имя 
ОТЕ (сокращение от слов Ошсоде ТгапзЮгтланоп Еогта®), за которым следует число, 
представляющее наименьший размер (в битах) для представляемых в этой кодировке 
символов. Имена кодировок будут следующие: ОТЕ-8, ОТЕ-16 и ОТЕ-32. Коди- 
ровка ОТЕ-8 является наиболее гибкой и применяется при создании Рей-сценариев. 


Кодировка ОТЕ-8 


Стиль кодировки ОТЕ-8 является наиболее приближенным к стилю Реп. Она так- 
же является наиболее эффективной, поскольку для хранения символов использу- 
ются отдельные байты. Исходя из этого, ОТЕ-8 по умолчанию применяется для 
кодирования ХМГ-документов: если в объявлении ХМГ-документа не указан тип 
кодировки, предполагается использование кодировки ОТЕ-8. 

Каждый символ в составе документа, представленный с помощью кодировки 
ОТЕ-8, использует столько байтов, сколько определяется кодом этого символа 
(максимум до шести байтов). Таким образом, заглавная литера А представляет- 
ся с помощью адреса 0х41, требующего один байт памяти. Символу «смайлика» 
соответствует адрес 0х263А. В этом случае требуются три байта для представле- 
ния кода символа и один байт — для информирования текстовых процессоров о 
кодировании символа с помощью нескольких байтов. Вполне вероятно, что в да- 
леком будушем, после вхождения Земли в Галактический союз, для кодирова- 
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ния символов многочисленных инопланетных языков будут применяться от чс- 
тырех до шести байтов. 


Кодировка ШТЕ-16 


Кодировка ТЕ-16 использует полные два байта для представления символов. 
Причем характер представления не изменяется даже в том случае, если размер сим- 
вола позволяет воспользоваться одним байтом (с этой задачей превосходно справ- 
ляется кодировка ОТЕ-8). С другой стороны, если символ является достаточно 
редким, для его представления могут потребоваться дополнительные два байта 
(суррогатная пара). В этом случае общая длина символа составит четыре байта. 


ПРИМЕЧАНИЕ 
Поскольку в Утсоае 2.0 используется стиль представления, соответствующий 16 битам на один 
символ, в качестве собственной поддерживаемой кодировки, многие говорят о «кодировке 
Упсоде», имея в виду кодировку Опісоае ОТЕ-16. Диалоговые окна новых приложений, «Заме 
Аѕ...», иногда предлагают отдельные варианты выбора «Опісоае» и «ОТЕ-8», даже если эти 
названия не имеют особого смысла в терминологии Упсоае 3.2. 


Кодировка ШТЕ-32 


Кодировка ОТЕ-32 аналогична кодировке 17ТЕ-16, но, в отличие от последней, 
в ОТЕ-32 каждый символ занимает ровно четыре байта. По этой причине данный 
тип кодировки не слишком распространен, поскольку в большинстве случаев все 
персдаваемые символы будут снабжены ведущими нулями. Это обстоятельство не 
позволяет данному виду кодировки демонстрировать чудеса эффективности. Бла- 
годаря гарантированной ширине символов возможно представление миллионов 
символов кодировки Ошсоде. И хотя ОТЕ-32 относится к трем основным коди- 
ровкам Ошсоде, она не распознается ХМГ-анализаторами. Правда, это обстоятель- 
ство вряд ли играет какую-либо заметную роль. 


Другие типы кодировок 


В ХМГ-стандарте определяется 21 имя для наборов символов, предназначенных 
для использования анализаторами (помимо общеизвестных кодировок, ОТЕ-8 и 
ОТЕ-16). Эти имена ранжируются от 150-8859-1 (АЗСП плюс 128 символов, не 
связанных с латинским алфавитом) до 5 ћі Ё Ј15 (кодировка Місгоѕоћ для иерог- 
лифов японского языка). Хотя по существу эти кодировки не являются кодиров- 
ками Оп!со4е, каждый представляемый ими символ отображается на один либо 
большее количество кодов Опісойе (и наоборот, позволяя переключаться между 
различными кодировками). 

При использовании ХМГ-анализаторов в Ре! возможны собственные методы 
работы с другими кодировками. Некоторые из них требуют приложения дополни- 
тельных усилий. Например, анализатор ХМІ : : Рагзег в своем исходном виде мало 
подходит для работы со многими кодировками. Это связано с тем, что базовая биб- 
лиотека Ехра настроена на восприятие кодировок, отличных от кодировок 
Опісоде. К счастью, это положение можно легко исправить, установив модуль 
ХМЕ : Епсодіпе Кларка Купера (СІагк Соорег). Этот модуль, по сути, подкласс 
ХМІ: : Рагѕег и может считывать, а также воспринимать отображения файлов 
(ХМГ-документы), которые связывают коды символов, указывающие на другие 
кодировки, с соответствующими адресами Итсоде. 
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Поддержка Упсоае со стороны Рей 


Как и в случае с ХМГ, связь между Рей и Ошсоде укрепляется медленно, но не- 
отвратимо'. В общем случае, для корректной работы с кодировкой Опісойе необхо- 
димо использовать Рей версии 5.6 либо выше. Если у вас установлена эта версия 
Рей, обратитесь к тап-странице регіипісоае, где содержатся сведения о текущей под- 
держке Опсоде. Даже если в вашем распоряжении окажется более ранняя версия 
Реті, всегда можно ее обновить. Вы можете воспользоваться некоторыми дополни- 
тельными инструментами, описанными в последующих разделах главы, однако ра- 
бота с Рей и ХМІ. означает использование Опісойе, поэтому будет сказываться от- 
сутствие соответствующей поддержки. 

В настоящее время наиболее современная и стабильная версия Ре, 5.6.1, обес- 
печивает частичную поддержку Ошсо4е. Директива иі обеспечивает использо- 
вание в Рей кодировки ОТЕ-8 для большинства функций обработки строк. В Рей 
также позволяется создавать код на основе символов ОТЕ-8, выходя за пределы 
обычных АЗСП-кодов. Эта возможность пришлась по нраву хакерам, мысли кото- 
рых персдаются с помощью символов, не относящихся к латинскому алфавиту. 

В Реті версии 5.8 лучше реализована поддержка Опісойе, благодаря чему обес- 
печивается совместное беспроблемное существование ОТЕ-8 и регулярных вы- 
ражений. В составе дистрибутива версии 5.8 также появился модуль Епсойе, 
имеющий отношение к стандартной библиотеке Реп. Благодаря этому модулю Ре!- 
программисты могут преобразовывать стандартные кодировки в кодировки 
Опісоде: 


узе Епсоае "Егом бо"; 

Ғгот о (Ф$ааќа, "150-8859-3", "оЕЕ-8"); # преобразование в чЕЁ-8 

И наконец, версия Ре! 6 включила в свой состав все наработки, полученные 
сообществом Ре! за последние двенадцать лет. И конечно же, за это время поддерж- 
ка Опісоӣе улучшилась. Как говорится, нет предела для совершенства. 


Преобразование кодировок 


Если вы используете версию Рег] 5.8 либо более раннюю, переключение между 
различными кодировками может потребовать некоторых дополнительных усилий. 
К счастью, в вашем распоряжении имеются некоторые инструментальные сред- 
ства, позволяющие решить эту проблему. 


ісопу и Техі::Ісопу 


По сути, ісопу является библиотекой и программой в одном лице, доступной в вер- 
сиях для №Міпаомѕ и Чшх (включая Мас ОЗ Х). Она обеспечивает «прозрачный» 
интерфейс, позволяющий выполнять преобразования типов различных документов. 
Ниже приводится пример использования этой программы в командной строке Опіх: 


$ ісопу -Ё 1аїіп1 -Е чЕЕЗ пу Ее. схЕ > ту ипісойе #і1е.їхї 


Если дополнительно к ісопу загрузить из сети СРАМ Рег|-модуль Тех* : : Гсопм, 
в вашем распоряжении окажутся Рей АРІ, расширяющие возможности стандарт- 


> Вэтом месте повествования вас может посетить романтическая метафора, хотя вы, вероятно, пони- 
маете, что многочисленные «амурные связи» Рей сделали его тем. кем он есть па самом деле. 
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ной библиотеки. При этом обеспечивается возможность быстрой перекодировки дис- 
ковых файлов и строк в памяти. 


Модуль Утсоае: :5 пд 


Существует более универсальное решение перекодирования, реализованное в фор- 
ме модуля ОЧп!со4е: : 511$. При использовании этого модуля не требуется базо- 
вая библиотека языка С. Базовый интерфейс АРІ является настолько простым, 
насколько простым могут быть все базовые АРІ. Предположим, что на входе моду- 
ля оказывастся строка. Она просто передается методу конструктора класса, затем 
возвращается объект, содержащий строку, наравне с методами, позволяющими вы- 
полнять различные операции по обработке текста. Листинг 3.12 демонстрирует 
тестирование модуля. 


Листинг3.12. Тестирование модуля Упсоде::$ тд 


изе Уп соде: : 51гіпр; 


ту Фѕігіпо= "Тћіѕ ѕепіепсеехіѕїѕ п АЗСИ апа ЦТЕ-8, Би по уте -16. Ват!\п"; 
ту $и = Џпісоде: : $%г1и8->пем ($$ Ег1 ив) ; 


Объект ба содержит объект, представляющий строку. 
16-битовых символов 


Испопьзуется перегрузка, поэтому текстовые Рег1-операторы 
делают то, что от них ожидают! 
би .= "\п\рОр. һеу, 1іё'ѕ Оплсоде а11 оЁ а задет. Ноогау!!\п" 


Вывод на печать с применением кодировки ОТЕ-16 
#(также известно под именем 1652) 
ргіпі $и->0с52; 


Вывод на печать в красивом виде. 
ргіпі Ѕи->0ЕЁ8 : 


Многие методы модуля позволяют уменьшать количество битов, занимаемых 
символами. Например, метод и( [7 обеспечивает исключение одного бита для сим- 
волов в кодировке ОТЕ-8. 


ПРИМЕЧАНИЕ 
Иногда создается впечатление, что модуль ХМЕ : : Рагзег «навязывает» окружающим кодировку 
Опісоае. Независимо от определенной кодировки документа, происходит преобразование всех 
символов, имеющих высшие кодировки Џпісоде, в кодировку ОТЕ-8. В случае если пользователь 
запрашивает данные обратно, происходит обратное преобразование кодировки символов. 
Подобное «тихое» преобразование может привести к неприятным последствиям. Если вы 
используете ХМІ: : Рагѕег в качестве основы программы обработки данных, подумайте о 
возможном использовании упомянутых в разделе инструментов преобразования. 


Метки порядка байтов 

Если в вашем распоряжении оказывается ХМГ-документ, поступивший из неизвес- 
тного источника, о кодировке которого ничего не известно, можно воспользоваться 
меткой порядка байтов (Бу{е от4ег тагк, ВОМ). Обычно эта метка находится в заго- 
ловке документа. Документы, использующие кодировки Оп1соде ОТЕ-16и ОТЕ-32, 
зависят от завершающей части (при использовании кодировки ОТЕ-8 благодаря 
особенностям реализации протокола подобного не происходит). Если неизвестно, 
где находится завершающая часть байта (важный бит, определяющий чтение доку- 
мента в обычном и зеркальном порядке), содержимое документа искажается, в силу 
чего он может оказаться неприемлемым для использования программами. 
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В качестве метки порядка байтов в Опісойе определяется специальная точка ко- 
да, О+ЕЕЕЕ. Согласно спецификации Опісойе, для документов с кодировкой 1 ТЕ-16 
или ОТЕ-32 должна существовать возможность выделения первых двух либо че- 
тырех байтов с целью резервирования символа метки!. Таким образом, при считы- 
вании программой документа, в случае если значения первых двух битов равны 
ОхЕЕ и ӨхҒЕ, соответственно, это говорит о конце кодировки ОТЕ-16. С другой 
стороны, наличие подобных кодов свидетельствует о малом завершении докумен- 
та, поскольку в этом случае отсутствует точка кода Опісойе, О + ЕЕЕЕ. (Метки ВОМ 
большого и малого завершения в кодировке ОТЕ-32 занимают больше битов: 0х00 
0х00 ӨХҒЕ ӨхҒЕ и ОхЕЕ 0хЕЕ 0х00 0х00, соответственно.) 


В ХМІ-спецификации утверждается, что документы, в которых применяется 
кодировка ОТЕ-16 и ОТЕ-32, должны включать метки ВОМ. И опять же, на основе 
спецификации Оп1соде можно сделать вывод, что «благоразумные и великодушные» 
создатели документов передают их по сети с меткой порядка байтов. Другими сло- 
вами, документы передаются с признаком большого завершения, означающим, что 
они были объявлены в порядке использования с целью передачи данных между ком- 
пьютерами. И снова, если вы будете великодушны и благоразумны, то всегда сможе- 
те передать информацию о порядке документа по сети в том случае, если не будете 
уверены в наличии подобного признака порядка. Однако если вы даже почувствуе- 
те какие-либо сомнения при получении стандартного документа, не обращайте ни 
на что внимание и просто воспользуйтесь следующим текстом: 


ореп ХМЕ РІІЕ, $#і1епате ох сЧе "Сап' еза $11епаме: 5!"; 
пу 5рот; # может включать метку порядка байтов 


# Считывание первых двух байтов. 
геад ХМ РІЪЕ, $бот, 2; 


# Выборка соответствующих числовых значений с помощью 
# функции Регі, ога(). 

пу ога = ога(ѕирѕїг (рот, 0,1)); 

пу Ѕога2 = ога(ѕиюѕг ($60м,1,1)); 


1Е (бог == ОхЕЕ && $ога2 == ОхЕЕ) { 

Выглядит подобно документу ОТЕ-16 с большим 
завершением! 

# .._. здесь поступаем соответствующим образом 


} е1з1Е (богат == ОхЕЕ && Ѕога2 == ОХЕЕ) { 

0, кто-то подшутил и отослал нам документ с кодировкой 
ОТЕ-16, которому присуще небольшое завершение. 
Возможно, вам не захочется выполнять перестановку 
байтов перед началом их обработки. 

} вазе { 

Не обнаружена метка порядка байтов. 


} 

Этот пример может пригодиться в том случае, если анализатор не может обна- 
ружить признаки ХМГ-кода в документе. Конечно, в первой строке может быть 
корректное объявление <?хті ... >, но анализатор не в состоянии правильно 
считывать ХМГ-код. 


' Кодировка ОТЕ-8 обладает собственной меткой порядка байтов, применяемой с целью иден- 
тификации документа с подобной кодировкой. Вследствие этого полетность метки в мире ХМІ не 
слишком велика. 


Потоки событий 


Теперь, когда вы уже получили базовые знания по языку ХМГ, а также имеете 
представление об анализаторах, настало время приступить к рассмотрению одно- 
го из двух важнейших стилей, применяемых в процессе ХМГ-обработки. Речь пой- 
дет о потоках событий. В этой главе рассматриваются некоторые примеры, на ос- 
нове которых демонстрируется базовая теория потоковой обработки. Вы также 
познакомитесь с принципами функционирования Ѕітріе АРІ юг ХМГ (ЅАХ). 


Работа с потоками 


В мире компьютерных наук потоком называется последовательность обрабатыва- 
емых фрагментов данных. С этой точки зрения файл может рассматриваться в ка- 
честве последовательности символов (каждый из которых требует для своего пред- 
ставления один либо большее количество байтов, в зависимости от применяемого 
метода кодирования). Программа, использующая эти данные, может устанавли- 
вать дескриптор файла. При этом создается поток символов, с помощью которого 
может выбираться считывание фрагментов данных переменного размера. Потоки 
также могут генерироваться в динамическом режиме, либо с помощью другой про- 
граммы, приниматься по сети, либо определяться пользователем. Поток представ- 
ляет собой абстракцию, причем источник данных не коррелирует с определенной 
целью обработки. 


А теперь приведем описание наиболее общих свойств потока: 

Ы поток состоит из последовательности фрагментов данных; 

* имеет значение последовательность передаваемых фрагментов; 

•_ неимеет значения источник данных (файл или выходные данные программы). 


По сути, ХМГ-потоки являются группами символьных потоков. Каждая груп- 
па данных, которая на диалекте анализатора именуется маркером, представляет 
собой набор из одного или большего количества символов. Каждый маркер соот- 
ветствует типу разметки, например, начальному либо конечному тегу элемента, 
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строке символьных данных либо инструкции по обработке. Благодаря этому 
упрощается разбор ХМГ-кода с применением анализаторов, а также минимизи- 
руются требуемые ресурсы и время. 

Основное отличие между символьными потоками и ХМГ-потоками заключа- 
ется в содержимом, присушем каждому маркеру; невозможно заполнить поток слу- 
чайными тегами и данными, а затем ожидать вразумительных результатов от ХМГ- 
процессора. Например, поток, включающий десять начальных тегов, для которых 
не указаны завершающие теги, не представляет особой ценности. И конечно, вдан- 
ном случае не может идти речь о коде ХМГ, отвечающем требованиям формаль- 
ной корректности. Данные, которые не подчиняются требованиям формальной кор- 
ректности, будут исключены из рассмотрения. Но ведь основным назначением 
ХМГ-кода является упаковка данных с применением метода, гарантирующего це- 
лостность структуры и меток документа, пе так ли? 


Упомянутые контекстные правила применимы в отношении к анализаторам, 
равно как и к процессорам, выполняющим обработку данных. При разработке язы- 
ка ХМГ ставилась цель облегчения синтаксического разбора, в то время как дру- 
гие языки разметки в этой ситуации могли требовать предварительного и заклю- 
чительного просмотра. Например, в языке ЗС МЕ отсутствует правило, требующее 
использования конечного тега для непустых элементов. Определение признака 
завершения элемента может потребовать от анализатора «сложных размышлений». 
По этой причине возрастает сложность кода, замедляется скорость обработки, а так- 
же увеличивается объем используемой памяти. 


События и обработчики 


Итак, чем же объясняется название лоток события? Почему не поток элементов 
или объектный поток разметки? Причина заключается в том, что ХМІ исрархи- 
чен по своей структуре (элементы содержат другие элементы). В результате не- 
возможно выделять отдельные элементы и использовать их в качестве маркеров 
потока. В документе, отвечающем правилам формальной корректности, все эле- 
менты содержатся в одном корневом элементе. Корневой элемент, содержащий 
весь документ, сам по себе не является потоком. Поэтому трудно вообразить по- 
ток, формирующий завершенный элемент в виде маркера (если речь не идет о 
пустом элементе). 

В силу упомянутых причин ХМГ-потоки составляются на основе событий. Лю- 
бое событие представляет собой сигнал, свидетельствующий об изменении состоя- 
ния документа. Например, если анализатор обнаруживает начальный тег элемента, 
сообщается, что был открыт другой элемент и изменилось состояние синтаксичес- 
кого разбора. Завершающий тег влияет на состояние, закрывая последний откры- 
тый элемент. ХМ[.-процессор может отслеживать открытые элементы в структуре 
стека данных. При этом в спек помещаются сведения о только что открытых элемен- 
тах и исключаются данные о закрытых элементах. В любой момент синтаксического 
разбора процессор может оценить глубину своего нахождения в документе путем 
оценки размера стека. 

Хотя анализаторы поддерживают разнообразные события, могут возникать не- 
которые «накладки». Например, один анализатор может различать начальный тег 
и пустой элемент, а другой — нет, но все генерируют сигнал о наличии данного 


События и обработчики 87 


элемента, А теперь рассмотрим подробнее, каким образом анализатор обрабатыва- 
ет маркеры (листинг 4.1). 


Листинг4. 1. Фрагмент ХМІ-кода 


<гесіре> 
<папе>реапае риёсег апа је11у ѕапімісћ</пате> 
<!-- ада рісіоге оЁ ѕапфктісһ Беке --> 


<їіпргедїепіѕ> 
<іпргеајіепі>б\орру&ігаае; ргапа реапиЕе риїіег</ іпргедіепі> 
<іпргедтепі>бгеаа</ їпвгедіепї> 
<іпргедтепі>је11у</іпвгейїепе> 

</і пагедіепёѕ> 

<іпоТгисііопѕ> 
<ѕіер>бргеаа реапиіриёіег оп опе $11се оЁ Бгеаа. </ѕїер> 
<ѕсер>Ѕргеаа је11у оп ЕЪе обһег $11се оЁ ргеай. </5їер> 
<зЕер>Рае ркеаа ѕ11сеѕ ёодеёћег, уііһ реапае риёсег апа 

је11у соосһіпа.</ѕсер> 

</і пзєгисііопѕ> 

</гесіре> 


В результате применения анализатора в последнем примере может быть сгене- 
рирован следующий перечень событий: 


• начало документа (это событие характерно для началадокумента, но не для 
отдельного фрагмента текста); 


• пачальный тег элемента <гесіре>; 

• начальный тег элемента <пате>; 

• фрагмент текста «реапиі бийег апа јеПу запазжйсв»; 

• конечный тег элемента <пате>; 

• комментарий в форме «ааа рісіиге оѓ ѕапамісћ Пете»; 
• начальный тег элемента <іпвгейіепїѕ>; 

• начальный тег элемента <і пагейі еп{>; 

. текст«С]орру»; 

• ссылка на сущность { гаде; 

• текст «6гапа реапифи((сг»: 

• конечный тег для элемента <іпвгейіепі> . 

... И так далее , пока не наступит завершающее событие — конец документа. 


Где-то между процессами распределением потока на маркеры и их обработкой на- 
ходится уровень, выполняющий функции диспетчера. С его помощью происходит 
разветвление процесса обработки, в зависимости от типа маркеров. Код, обрабатыва- 
ющий конкретный тип маркера, называется обработчиком. Причем различные обра- 
ботчики применяются для работы с начальными тегами, символьными данными ит.д. 
При создании подобного объекта может применяться совокупность операторов і 1, с 
помощью которых организуется вызов различных процедур, предназначенных для 
обработки того либо иного случая. Также обработчик встраивается в анализатор в ка- 
честве диспетчера обратного вызова (потоковый режим ХМЕ: : Рагѕег). Если зарегис- 
трировать набор процедур в соответствии с типами событий, анализатор вызывает 
соответствующую процедуру для каждого генерируемого маркера. Применяемая стра- 
‘тегия зависит от выбранного анализатора. 
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Анализаторы как средство для достижения цели 


Нет особой нужды разрабатывать программу обработки ХМІ-кода, выполняющую 
отделение анализатора от обработчика, хотя подобное действие сулит своп преиму- 
щества. Создание модульной программы облегчит организацию и тестирование кода. 
Идеальный вариант реализуется в том случае, если объекты взаимодействуют друг 
с другом по выделенным каналам, освобождая их по мере необходимости. Благода- 
ря внедрению принципов модульности облегчается переключение между раздела- 
ми программы, что является жизненно важным при обработке ХМГ-кода. 

Ранее уже упоминалось о том, что ХМ 1.-поток является абстракцией, не требу- 
ющей указания источника данных. Все это напоминает своего рода кран во дворс, 
к которому может подсоединяться поливочный шланг. Причем не имеет значения 
способ подключения шланга, так как в любом случае основным является требова- 
ние подачи воды. Также це играет никакой роли конструкция крана и самого шлан- 
га. Подобно этому, ХМГ-апализаторы могут рассматриваться как средство для до- 
стижения цели: инструмент, который можно загрузить, подключить и наслаждаться 
его предсказуемым поведением. Сам процесс подключения не составляет особого 
труда, хотя и может потребовать некоторой изобретательности. 

Продолжая аналогию с оборудованием для полива, можно заметить, что клю- 
чевым элементом крана является вентиль. Он зависит от величины напора воды 
и размера поливочного шланга. При работе с ХМГ-потоками событий также тре- 
буется поддержка стандартного интерфейса. С этой целью несколько лет назад 
ХМГ-разработчики перешли на использование ЅАХ. А до недавнего времени 
ХМГ-анализаторы, реализованные в виде Регі-модулей, не были взаимозаменя- 
емыми. Каждый обладал своим собственным интерфейсом, что приводило к зат- 
руднению взаимодействия между ними. Ситуация изменилась после того, как 
разработчики адаптировали ЅАХ и приняли ряд соглашений, направленных на 
достижение интеграции между обработчиками и анализаторами. Более подроб- 
но эти вопросы будут рассматриваться в главе 5. 


Потоковые приложения 


Потоковая обработка великолепно подходит при выполнении многих ХМ1.-задач. 
Ниже перечислены некоторые из них: 


. фильтр — в результате применения фильтра образуется практически иден- 
тичная копия исходного документа, содержащая незначительные изменения. 
Так, например, каждый элемент <А> может преобразовываться в элемент <В>. 
Обработчик устроен весьма просто и выводит получаемую информацию, вы- 
полняя при этом небольшие изменения при обнаружении специфического 
события; 


. селектор — если требуется выбрать часть информации документа, не вда- 
ваясь в подробности остального содержимого, можно воспользоваться се- 
лектором. В ходе выполнения этой программы «просеиваются» события, 
осуществляется поиск элемента либо атрибута, содержащего уникальную 
область данных, именуемую ключом. Затем выполнение программы завер- 
шается и найденные записи (после завершения повторного форматирова- 
ния) выводятся на экран; 
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. сумматор — этот тип программы применяется для создания кратких сводок 
на основе исходного документа. Например, бухгалтерская программа может 
рассчитывать заключительный баланс на основе многих записей транзак- 
ции: в частности, создается содержание путем вывода названий разделов; 
генератор индексов может образовывать перечень ссылок на некоторые клю- 
чевые слова, выделенные в тексте. Обработчик подобного типа программ 
должен запоминать части документа с целью его повторной упаковки, после 
того как анализатор завершит считывание файла; 


. Преобразователь — тот сложный тип программы предназначен для преобра- 
зования одного допустимого формата ХМІ-документа в другой. Например, 
так можно выполнять преобразование росВоок ХМІ в код НТМІ. Подоб- 
ный тип обработки является «венцом» потоковой обработки. 


Обработка ХМТ-потоков хорошо подходит для обширного класса задач, хотя сле- 
дует учитывать некоторые ограничения. Наибольшие проблемы могут возникнуть 
из-за того, что выполнение всех действий контролируется анализатором, а он может 
иметь «свое мнение» по разным вопросам. Часто программе требуется воссоздать 
хронологию событий. Это может выражаться следующим образом: «постой, мне тре- 
буется маркер, который был передан 10 шагов назад» либо «не можете ли вы предо- 
ставить маркер, находящийся в нижней строке в 12-ти шагах отсюда?». Исследова- 
ние прошлого возможно втом случае, если предоставить программе дополнительный 
объем памяти. Сохранение в памяти недавних событий возможно путем грамотного 
использования структур данных. Однако если потребуется «заглянуть» в далекое 
прошлое либо в близкое будущее, лучше воспользоваться другой стратегией: обра- 
боткой деревьев, рассматриваемой в главе 6. 

Ну а теперь, когда вы вооружены базовыми знаниями по обработке ХМГ-пото- 
ков, настало время перейти к рассмотрению специфических примеров, связанных 
с применением на практике ХМГ-потоков. 


Анализатор ХМІ:РҮХ 


Во вселенной Ре! возникновение стандартных АРІ чрезвычайно замедлено в силу 
ряда причин. Сеть СРАМ, включающая общедоступные модули, растет опережаю- 
щими темпами. Однако в этой сети отсутствует централизованное руководство, 
призванное одобрять новые стандарты. Как и в случае с ХМІ, который является 
новым «игроком» па сцене форматов данных, сообщество пользователей Рег] толь- 
ко приступило к разработке своих собственных стандартов. 

Новая эра обработки ХМГ-кода средствами Рег| может характеризоваться на- 
личием нестандартных анализаторов. В то время модули посиди эксперименталь- 
ный характер, а документация, как правило, отсутствовала. Это давало простор 
фантазии и изобретательству, но также и порождало вполне законные опасения. 
Совершенно неожиданно многие появившиеся в то время инструменты получили 
весьма широкое распространение. Эта эпоха еще ждет своих исследователей, а мы 
перейдем к изложению более конкретных вопросов. 

Анализатор ХМ. : : РУХ является представителем первого поколения анализато- 
ров. Потоки самоорганизуются в соответствии с применяемой концепцией каналов, 
когда данные, выводимые одной программой, могут направляться другой програм- 
ме, образуя цепочку процессоров. На основе этой концепции формируется элегант- 
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ный стиль обработки, который вполне может реализовываться в ХМГ.. Здесь важно 
то, что ХМГ-код может быть реорганизован в виде потока легко распознаваемых 
коммутативных символов, даже с помощью утилит командной строки. 

В нашем примере переформатирования текста с помощью РУХ используется сим- 
волическое кодирование ХМІ-разметки, которое является естественным для таких 
языков обработки текста, как Рей. Представление каждого ХМІ.-события в отдель- 
ной строке представляется весьма целесообразным, поскольку многие (Опіх-утили- 
ты (например, аук и егер) ориентированы на обработку строк. Благодаря этому обес- 
печивается совместимость РУХ с указанными программами (а также с Реп). 


В табл. 4.1 приводятся сведения по элементам РУХ-заниси. 


Таблица 4.1 РҮХ-запись 


Символ Представляет 


( Начальный тег элемента 
Завершающий тег элемента 

= Символьные данные 

Атрибут 

Инструкция по обработке 


> > 


При наличии какого-либо события в потоке РУХ-анализатор открывает новую 
строку, в начале которой находится один из символов, перечисленных в табл. 4.1. За- 
тем в строке указывается имя элемента или другие подходящие данные. Специальные 
символы указываются с помощью обратного слэша, как и в любом Регі-сценарии. 

Ниже приводится пример преобразования ХМГ-документа в формат РУХ-записи, 
выполняемого анализатором. Следующий ХМГ-код подается на вход анализатора: 


<зпорртой ${> 
<!-- Производитель не играет особой роли --> 
<1{ет>тоо{Праз{е</1{ет> 
<йет>госкеї епЕ1пе</1{ет> 
<ісет орїіопа1="уеѕ" >сауіаг</іїет> 
</ѕһорріпр11іѕї> 


РҮХ-запись выглядит следующим образом: 


($Порр1пЕ115Е 
-\п 


(1 тет 
-госке еполпе 
) 1 сай 
—\п 
(1 сай 
Аорїїопа1 уеѕ 
сауі ак 
і бай 


) 
= И 
) зЗборрлтя11 $6 

Обратите внимание, что в процессе РУХ-трапсляции комментарий опускается. 
Таким образом, РУХ несколько упрощает код, исключая некоторые детали раз- 
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метки. Несмотря на то, что разрешается прогон содержимого, в процессе трансля- 
ции пользователю не сообщается о наличии секций разметки СОАТА. Наиболее 
неприятным является то, что из потока исчезают символьные объектные ссылки. 
Поэтому прежде чем приступить к работе с РУХ, необходимо убедиться в том, что 
вы не нуждаетесь в информации подобного рода. 

Мэтт Сержант (Май Ѕегвеапі) разработал модуль, ХМі : : РУХ, выполняющий 
разбор кода ХМГ, а также его трансляцию в РУХ-запись. Небольшая программа 
выполняет исключение всех тегов ХМГ-элементов, оставляя только символьные 
данные. 


Листинг 4.2. РҮХ-анализатор 


уцзе ХМЬ: : РУХ: 


# Инициализация анализатора и генерирование РҮХ-кода. 
пу Ѕрагѕег = ХМЁ: : РУХ: : Рагѕег->пем; 


ту $рух; 
1Е (аеҒіпеа ( $АКбУ[ 0] )) { 


брух = $рагѕег->рагѕе?іле( $АВСУ[0] ); 

} 

# Фильтрация тегов. 

Ғогеасһ ( $р11е ( / /, $рух)) { 

реле $' ЇЁ( /^-/); 

} 

Итак, РҮХ-анализатор, быстро выполняющий черновую обработку ХМГ-кода, 
представляет собой неплохую альтернативу ЗАХ и РОМ. Его применение ограни- 
чивается простыми задачами, например, подсчет количества элементов, отделение 
содержимого от разметки, а также сообщение о простых событиях. Однако этот 
анализатор недостаточно «интеллектуален», посему не может применяться для вы- 
полнения сложной обработки. 


Анализатор ХМ: :Рагзег 


Первый быстрый и эффективный анализатор, ставший фаворитом сети СРАМ, 
назывался ХМ: : Рагзег (изощренный интерфейс этого анализатора был рассмот- 
рен в главе 3.). Приступим к знакомству со встроенным потоковым режимом. 

Анализатор ХМЕ : : Рагѕег будет применяться для считывания списка записей, 
кодированных в виде ХМГ-документа. Записи содержат персональную контактную 
информацию, включая имена, адреса и телефонные номера. По мере считывания 
файла анализатором происходит сохранение информации обработчиком во внут- 
ренней структуре данных. После завершения работы анализатора программа сор- 
тирует записи по именам и выводит их в виде НТМТ-таблицы. 

Исходный документ приводится в листинге 4.3. Здесь используется корневой 
элемент <1151>, а также четыре вложенных элемента <епїігу> (определяющие 
адрес, имя и телефонный номер). 


Листинг 4.3. Файл адресной книги 


<1191> 


<пате> <#ігої>Тћайеиѕ</ #1 г51><1аѕї>Мгір1еу</1аѕї></пате> 
<рһопе>716-505-9910</рһопе> 
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<аддгеѕѕ> 
<еігееї>105 Магѕцо1іа1 Соџгі</ѕікееі> 
<сіїу>Раігрогі</сіїу> <5іаіе>МҮ</ ѕїаїе><21р>14450</2їр> 
</аддгеѕѕ> 
</епху> 
<епёгу> 
<паме> <#ігѕі> Јі11</#1гѕ51><1аѕїі>Вахёег</1аѕі></пате> 
<аддгеѕѕ> 
<ѕегее>818 $. ВепозЕокЕЕ Ауепие</5їгееї> 
<21р>94040</72ір> 
<сіїу>Моипёаїпуіем</сіїу> <ѕ5їаїіе>СА</5їаїе> 
</аддгеѕѕ> 
<«рћопе>217-302-5455</рһопе> 
</епёху> 
<епсгу> 
<пате> <1аѕї>Кіссагдӣо</1аѕі> 
<ҒігѕЕ>Ргеѕтоп</?ігѕїі> </пате> 
<аддгеѕѕ> 
<ѕегееї>707 Еоораһ ргіуе</ѕїгееї> 
<сіїу>Миаһпи</сіїу> <ѕёаѓе>0К</ѕ5їаїе><21р>32777</2ір> 
</аддгеѕѕ> 
<рћопе> 111-222-333 </рһопе> 
</епёху> 
<епсгу> 
<аддгеѕѕ> 
<ѕіхеес>10 Јітіпу 1 апе</ѕсуееб> 
<сіёу>5сгарһеер</сіїу> <5+аїе>РА</5#аїе><21р>99001</21р> 
</аддгеѕѕ> 
<пате> <#ігѕі>Вепп</#ігѕ> <1аѕї>ѕа1тег</1аѕі></пате> 
<рћопе>611-328-7578</рһопе> 
</ейбту> 
</11 5 


В этой простой структуре обработка потоков реализуется естественным образом. 
Каждый начальный тег <епёгу > определяет подготовку новой части структуры дан- 
ных для хранения информации. Завершающий тег </епігу> свидетельствует о том, 
что все данные записи собраны и могут быть сохранены. Начальный и завершаю- 
щий теги подэлементов <епігу> указывают обработчику на то, когда и где следует 
сохранять информацию. Каждый элемент <епігу> является самодостаточным (от- 
сутствуют внешние ссылки, благодаря чему облегчается процесс обработки). 


Текст программы приводится в листинге 4.4. Верхняя часть кода используется 
для инициализации объекта анализатора с помощью установки ссылок на процеду- 
ры, каждая из которых является обработчиком отдельного события. Подобный стиль 
обработки событий получил название обратный вызов. Этимология этого названия 
связана с тем, что сначала разрабатывается процедура, а затем осуществляется ее 
повторный вызов анализатором в случае необходимости обработки событий. 

После фазы инициализации осуществляется объявление некоторых глобаль- 
ных переменных, используемых для хранения информации относительно ХМІ- 
элементов. Благодаря использованию подобных переменных в распоряжении 
обработчиков оказывается необходимый объем памяти. Процесс сохранения ин- 
формации с целью ее последующей выборки часто называют сохранением состоя- 
ния. Применение подобного названия объясняется тем, что в этом случае обработ- 
чики могут сохранять состояние синтаксического разбора вплоть до текущей 
позиции в документе. 
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После завершения считывания данных и их передачи анализатору в оставшейся 
части программы определяются процедуры обработчика. Допускается обработка 
пяти событий: начало и консц документа, начало и конец элементов, а также сим- 
вольные данные. Другие события, такие как комментарии, инструкции по обработ- 
ке и объявления типов документа, будут игнорироваться. 


Листинг 4.4. Код программы адресной книги 


# Инициализация анализатора с помощью ссылок на 
# процедуры обработчика. 

ие ХМЕ: :Раг$ег; 

пу брагзег = ХМЕ: :Раг5ег->пем( Напа1етз => { 
Іпії => \&һапд\е ос ѕїагї, 

Е1па1 => \&һапа1е дос епй, 

багі => \&һапд\е е\ет 5{агї, 

Ња => \&һапа\е е1ет епа, 

СһҺаг => \&һапа1е сһаг даїа, 


Глобальные переменные. 


+ = = — 


пу бгесога; # Указывает на хэш содержимого элементов. 
пу Ѕсопсехі;# Имя текущего элемента. 
пу %гесога$;# Набор записей в адресной книге. 


а 
# Считывание данных и передача их анализатору. 
а 
пу Ѕ#і1е = =ҺіЁЕ @АКСУ; 
1Е( $Е11е ) { 
брагхзег->рагзеЁ11е( $Ё11е); 
} е!зе { 
пу $іприї = "", 
мһіле( <5тртм> ) { $іприї .=$_; } 
брагзег->рагзе( блирие ); 
} 
ех1*; 
НН 
### Обработчики. 
НН 


# 

# После начала обработки выводит начало НТМІ-файла. 

# 

ѕџо һапа1е дос ѕёагё { 
ргіпі "<Һіті ><Неаа><{1{1е>аддге$5е$ < /{1{1е></Пеаа>\п"; 
ріп "<Боау><Б1>а9агеззез</61>\п"; 


} 
# 
# Сохранение имени и атрибутов элемента. 
# 


зир Һапа1е е1Іею ѕёагі { 
пу( $ехраї, $пате, $аіёѕ ) = @ 
бсорсехЕ = $пате; 


бтесога = {} 1Ё( Ѕпапе ед 'епіүу' ); 
} 


# Сбор символьных данных в буфер последних элементов. 
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# 
заб Һһапа1е сһаг даба { 
пу( $ехрас. Ѕсехі ) = @ ; 
# Именование некоторых "капризных" символов. 
бсехЕ =- 5/8/8/9; 
$ЕехЕ =-- 5/</&1{;/8; 


бтесога->{ $сопфехё } .= Ѕ$ёехі; 


== = — 


Если находится в элементе <епігу»>, 

# направить все данные в запись. 

ѕоо Нап91е_е1ет_епа { 

пу( бехраЕ, $пате ) = @ ; 

гебогп џп1еѕѕ ( бпатше ед 'епёгу' ); 

пу $#и11пате = $гесога-> { '1аѕ'} . %гесога->{ '?ігѕї'}; 
Ѕүуесогаѕ{ $#и11пате } = бЅгесога; 


Вывод, закрытие файла в конце процесса обработки. 


+ = = > 


59Ю һапа1е дос епа { 
ргіпі "<+ар1е богӣег= '1'>\п"; 
ргіпі "<іг> <> пате</ п> <Еһ>рһопе</ Еһ> <їһ>адагеѕ5</їһ> </ г> \п" ; 


Ғогеасһ му $Кеу ( зог ( Кеуз( %гесога$ ))) { 
ргіпі "<іг><ід>" . Ѕгесогаѕ{ Ѕкеу }->{ 'Мтузе' } . '"; 
ргіпс Ѕгесогаѕ{ $Кеу }->{ '1аѕї' } . "</69><69>"; 
ри1пЕ Ѕүесогаѕ{ Ѕкеу }->{ 'рһопе' } . "</Е4><6@а>"; 


ргіпі бхгесога${ бкеу }->{ '5їгееї' }.','; 

релоЕ Ѕгесогаѕ{ $кеу }->{ 'сіёу' }.','; 

рклиЕ $гесога${ $Кеу }->{ ‘збабе' } . ''; 

ргіпё $гесога${ Ѕ$Кеу }->{ '21ір' > . "</а></Ег>\п"; 
} 
ритиЕ "</фаб1е>\п</а1у>\п</роду></пЕт1>\п"; 

} 

Для получения представления о работе программы потребуется ознакомиться с 
обработчиками. Всем обработчикам, вызываемым модулем ХМЕ : : Рагзег, передает- 
ся ссылка на объект анализатора ехра{. Ссылка передается в качестве первого аргу- 
мента, благодаря чему облегчается доступ к данным со стороны разработчиков (па- 
пример, с целью проверки номера строки входного файла). В зависимости от типа 
события могут передаваться другие аргументы. Например, обработчик события, свя- 
занного с начальным элементом, в качестве своего второго аргумента получает имя 
элемента, а затем получает перечень имен и значений атрибутов. 

Для хранения информации обработчики применяют глобальные переменные. 
Если вы не испытываете симпатий к глобальным переменным (к больших про- 
граммах их применение может привести к трудностям при отладке), можно со- 
здать объект, предназначенный для внутреннего хранения информации. Затем 
можно передавать анализатору методы объекта, применяемые в качестве обработ- 
чиков. В дальнейшем мы будем использовать глобальные переменные, поскольку 
они лучше воспринимаются в наших примерах. 

Первый обработчик носит название һапй1е Пос ѕіагі и вызывается в самом 
начале операции синтаксического разбора. В этом случае обеспечивается удобный 
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способ для выполнения некоторых подготовительных действий перед началом об- 
работки документа. В рассматриваемом случае осуществляется вывод НТМІ -кода, 
который образует НТМГ-страницу, обеспечивающую форматирование отсорти- 
рованных записей адресов. Эта процедура не использует какие-либо специальные 
аргументы. 

Следующий обработчик, һапд1е е1ет ѕїагї, вызывается в том случае, если 
анализатор обнаруживает начало нового элемента. Кроме обязательной ссылки 
ехрат, процедура получает два аргумента: $пате, представляющий собой имя эле- 
мента, и ФаИ$ — хэш имен и значений атрибута. (Обратите внимание на то, что 
хэш не сохраняет порядок следования атрибутов. Если же этот порядок важен, вос- 
пользуйтесь массивом @аїіѕ.) В нашем простом примере атрибуты не применя- 
ются, однако у вас остается возможность воспользоваться ими в дальнейшем. 

Обработка элемента в процедуре обеспечивается путем сохранения его имени 
в переменной, именуемой $соптех\. Благодаря этому обеспечивается обработка 
событий, связанных с символьными данными, которые в дальнейшем отсылаются 
анализатором. Процедура также инициализирует хэш %тесог4, содержащий дан- 
ные для каждого подэлемента <епігу>, оформленные в виде удобной для просмотра 
таблицы поиска. 

Обработчик папа1 е_спаг_дафа имеет дело с данными, не относящимися к раз- 
метке, на которых основаны все символьные данные, хранящиеся в элементах. Этот 
текст определяется во втором аргументе, $1ех{. Обработчику требуется лишь со- 
хранить содержимое в буфере, $гесог4->{ Ѕсопіехі }. Обратите внимание, что 
вместо назначения символьных данных происходит их передача в буфер. Модуль 
Хмь: :Рагзег обладает интересной особенностью, заключающейся в вызове обра- 
ботчика символов после разбора каждой строки либо части строки, отделенной 
символом новой строки'. В результате, если содержимое элемента включает сим- 
вол новой строки, генерируются два отдельных вызова обработчика. Если данные 
не добавлялись, последний вызов перекрывает предыдущий. 


Неудивительно, что обработчики һапд1е е\ет епа имеют дело с события- 
ми, связанными с завершением элемента. Имя элемента передается во втором 
аргументе (как и в случае с обработчиком события начала элемента). Для боль- 
шинства элементов в этом случае ничего не происходит, но при наличии элемен- 
та <епіту> придется все же выполнить некоторую работу. На текущий момент 
времени была собрана вся информация, имеющая отношение к записи. Остается 
сохранить ее в хэше, проиндексировав в соответствии с именами владельцев дан- 
ных. Индексация облегчает сортировку записей в дальнейшем. Сортировка может 
выполняться только после ввода всех записей (поэтому и требуется сохранение 
записей с целью их дальнейшей обработки). Если же сортировка не требуется, 
можно просто выводить записи в формате НТМГ-кода. 

И завершает наш набор обработчик һапд\е дос епа, предназначенный для 
выполнения заключительных заданий, возникающих после окончания считыва- 
ния документа. Этот обработчик может потребоваться, например, для вывода па 
печать записей, отсортированных по именам в алфавитном порядке. Рассматри- 


' Подобный способ считывания текста присущ только Реті. Побориики чистоты ХМЈ. могут быть 
озадачены подобным методом обработки символьных данных. В ХМ І все служебные символы (и том 
числе и символы новых строк) трактуются и качестве входных данных. 


96 Глава 4 • Потоки событий 


ваемая процедура генерирует НТМГ-таблицу, выполняющую форматирование 
записей. 

В рассматриваемом примере приводится простейшая последовательность запи- 
сей, которая является достаточно простой, однако код ХМІ вовсе пе так просто 
устроен. В некоторых сложных форматах документов приходится учитывать «ро- 
дителей», «дедушек» или даже «дальних предков» текущего элемента при опреде- 
лении порядка обработки элемента. В этом случае требуется более сложная струк- 
тура, реализующая сохранение состояния, которая будет рассмотрена в дальнейшем. 


АХ 


Модуль ХМЕ : : Рагѕег реализует функции универсального синтаксического ХМІ- 
анализатора и генератора потоков, однако у него отсутствуют перспективы в мнре 
Рей и ХМГ. Проблема заключается в том, что зачастую не требуется анализатор 
«на все случаи жизни». Просто требуется обеспечить выбор среди нескольких 
анализаторов, каждый из которых служит достижению некоторой специфиче- 
ской цели. В распоряжении программиста могут оказаться модули, имеющие са- 
мый различный характер. Однако не следует ожидать, что применяемый анали- 
затор будет носить универсальный характер. На это не способен даже модуль 
ХМС : Рагѕег, располагающий внушительным набором опций и режимов рабо- 
ты. Поэтому следует создавать разнообразные анализаторы,. предусмотренные 
для применения в самых различных ситуациях. 

Среда, включающая различные анализаторы, требует установки некоторого уров- 
ня совместимости. Если бы каждый анализатор располагал собственным интерфей- 
сом, разработчикам пришлось бы непросто. Значительно проще освоить один 
интерфейс, а затем внедрить его поддержку среди различных анализаторов. Прак- 
тические потребности диктуют создание унифицированного интерфейса между ана- 
лизатором и программой, — средства, которое является достаточно гибким и надеж- 
ным, свободным от индивидуальных особенностей конкретного анализатора. 

Среда разработки ХМІ основана на управляемом событиями интерфейсе, на- 
зываемом ЅАХ. Возникновению интерфейса ЗАХ предшествовали дискуссии в 
списке рассылке ХМТ-ОЕУ. Благодаря поддержке Дэвида Мегинсона (ЮРауіа 
Меретзоп)’ довольно быстро была разработана спецификация этого интерфей- 
са. Первая версия ЗАХ уровня 1 (или просто $АХ1), поддерживает элементы, 
атрибуты и команды обработки. Здесь не предусмотрена обработка некоторых 
других объектов, например, пространств имен или секций СПАТА. Поэтому по- 
явилась вторая версия, ЅАХ2, воплощающая любое событие, которое можно пред- 
ставить в общем ХМІ-коде. 


' Давид Мегиисой поддерживает мер-страницу, посвященную ЅАХ, Һр://ууу.ѕахргојесі.огд. 
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Рост популярности интерфейса ЅАХ происходил очень быстро. Он прост и ле- 
гок в изучении. Развитие языка ХМІ. на ранних стадиях происходило в средеЈауа, 
поэтому ЅАХ получил наименование структурного компонента интерфейса. В этом 
случае подразумевался класс особого вида, в котором методы объекта объявля- 
лись без их реализации (сие действие «ложилось на плечи» разработчика). 

Вскоре идеи ЗАХ пронизали все сообщество пользователей Регі. Итогом этого 
явилось возникновение различных реализаций этого интерфейса в сети СРАМ, что, 
в свою очередь, привело к появлению некоторых проблем. Язык Реті не дает точ- 
ного способа определения типового интерфейса, как это позволяет делать Јауа. Ему 
присущ недостаточный уровень контроля типов и возможной несовместимости. 
Язык Јауа сравнивает типы аргументов функции с теми, которые определены в 
структурном компоненте интерфейса во время компиляции, а Рег] просто прини- 
мает любые используемые аргументы. Поэтому определение стандартов возложе- 
но «на плечи» разработчика и полностью зависит от его опыта и бдительности. 

Одна из первых реализаций интерфейса ЅАХ па Рей — это модульХМЕ: : Рагѕег: : 
Рей5АХ Кена Маклеода (Кеп МсІеоа). Выступая в подкласс ХМі : : Рагзег, он из- 
меняет поток событий из Ехраї, реализуя ЗАХ-события. 


Обработчики ЗАХ-событий 


При использовании в программе типового ЗАХ-модуля требуется передать ему 
объект, методы которого реализуют обработчики для ЗАХ-событий. В табл. 5.1 
описаны методы типичного объекта обработчика. ЗАХ-анализатор передает хэш- 
данные каждому обработчику, обладающему соответствующему событию свойства- 
ми. Например, в составе этих хэш-данных обработчик элемента получит имя эле- 
мента и список его атрибутов. 


Таблица 5.1 Обработчики РейЗАХ 


Имя метода Событие Свойства 

ѕїагї аӢоситеп Начатаобработкадокумента (первоесобытие) (не определены) 

епа_доситепї Завершена обработка документа (последнее событие) (не определены) 

ѕСагі е1 етмелі Обнаружен начальный тег элемента или пустой тег Мате, 
элемента Аїїгіриїеѕ 

епа е1етепї Обнаружен конечный или пустойтег, Мате 
соответствующий элементу 

спагас{ег$ Обнаружена строка символов, неявляющихся раїа 
символами разметки (символьные данные) 

ргосеѕѕіпо_ Найдена команда обработки Тагдеї, Баа 

і И5НИСНОЙ 

соттепї Встречен комментарий Бата 

ѕїагі сааїа Обнаружено начало секции САТА (не определены) 


(следующие символьные данные могут содержать 
зарезервированные символы разметки) 


епа _сааїа Обнаружен конецсекции СРАТА (не определены) 


епіі їу гетегепсе Обнаружена внутренняя ссылка объекта Мате, Уа!ие 
(альтернативная внешней ссылке объекта, которая 
указываетнато, что необходимо загрузить файл) 
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Несколько замечаний относительно методов обработчика: 


. для пустых элементов вызываются обработчики ѕїагї е\етепї () и 
епа_е1етеп{ (), для пустых элементов отсутствует какой-либо специаль- 
ный обработчик; 


. обработчик сһагасїегѕ () может вызываться многократно для строки не- 
прерывных символьных данных, разбивая ее при этом на части (например, 
анализатор может «разрывать» текст вокруг ссылки объекта, что зачастую 
имеет определенный смысл); 


• при наличии пробела между элементами вызываетсяобработчик сһагасіегѕ () 
(даже в том случае, если не рассматриваются значимые данные); 


• разбор команд обработки, комментариев и секций СРАТА необязателен. 
При отсутствии обработчиков данные, имеющие отношение к командам об- 
работки и комментариям, пропускаются. Для секций СРАТА по-прежнему 
вызывается обработчик сһагасіегѕ (), поэтому данные не будут утеряны; 


• обработчики ѕїагї сӣаѓа() и епа сааїѓа() пс получают данных. Вместо 
ЭТОГО ОНИ ВЫПОЛНЯЮТ функцию сигналов, указывающих н то, можно ли ожи- 
дать, что полученные символы разметки приведут к вызову обработчика 
сһагасіегѕ(); 


• При отсутствии обработчикаепі 1{у_ге?Тегепсе () все внутренние ссылки 
объекта будут переданы анализатору автоматически, а полученный в резуль- 
тате текст или разметка будут обрабатываться обычным образом. Если оп- 
ределен обработчик епїіїу гетегепсе (), то объектные ссылки не будут рас- 
ширяться и с ними можно делать все что угодно. 


Теперь приведем пример. Напишем программу, вызывающую фильтр, который 
дублирует исходного документа с некоторыми модификациями. Суть изменений 
заключается в следующем: 


. каждый ХМГ-комменарий превращается в элемент <соттепі >; 
• удаляются команды обработки; 


• удаляются теги, но остается содержимое элементов <1іїега1> , которые ото- 
бражаются в элементах <рговгатіі $11 пе> на любом уровне. 


Код этой программы приведен в листинге 5.1. Каки в предыдущей программе, 
инициализируется анализатор с набором обработчиков, за исключением того, что 
па этот раз они объединяются в составе удобного пакета -—- объекта, получившего 
название МуНапаТег. Отметим, что здесь реализовано несколько больше обработ- 
чиков, поскольку ‘требуется обработка комментариев, команды обработки и про- 
лог документа. 


Листинг 5.1. Программа-фильтр 


# Инициализация анализатора. 
# 
це ХМ: :Рагѕег: :Ре’15АХ; 
пу Ѕрагѕег = ХМ: :Рагѕег: :Рег15АХ->пем( Нап]ехг => МуНапд1ег->пем( ) ); 
(ту $11е = ЗН И вАкбу ) { 
брагзег->рагзе ( Ѕоџгсе => {5узветТа => $11 1е} ); 
} азе { 
пу $1іприї = ""; 
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ип11е( <ЗІШЛҸ ) { $1приё .=5 ; } 


браизет->раузе( Золисе => {Зкіту => ірі} ); 


} 


еї; 


Глобальные переменные. 


@е1етепї этасК; # Запоминайте имена элементов. 
біп іпіѕеё; # Флаг: внутреннее подмножество? 


ЕЗ 
## Пакет обработчиков документа. 
# 
а. 


скаде МуНапа1ег; 


тициализация пакета обработчиков. 


ѕио пем { 
пу $їуре = ѕһіЁС; 
гебоуп рІеѕѕ {}, Ѕіуре; 
} 
т 
# Обработка события начала элемента: 
# Вывод начального тега и атрибутов. 
т 
ѕио ѕЅїагїі е1етепі { 
пу( $5е1#, $ргорегїіеѕ ) = @; 
Отметим, что хэш-данные %{%ргорегїіеѕ} утеряют 
порядок следования атрибутов. 
Закрыть внутреннее подмножество в случае, если 
оно пока открыто. 
осоро ( "]>\п" ) 1Е( Ѕіпіпіёѕеї ); 
$іп_іпіѕеЁ = 0; 
Запомнить имя, записав его в стек. 
роѕћ( @е1етепїі ѕїаск, Ѕргорегііеѕ-> {' Мате'} ); 
Вывести тег и атрибуты, кроме <1ібега1> 
внутри <рговгат1іѕїіпв>. 
џп1еѕѕ( эбаск бор( '1іїега1' ) апа 
ѕсаск сопёаїіпѕ ( '‘рговгам\ііѕііпр' )) { 
ооероё ( "<" . фргорегііеѕ->{ '№ате'} ); 


пу %Фаїёгіриїеѕ = %{$ргорегЕ1е$-> { 'Аїїгіриїеѕ'}}; 


Ғогеасһ( Кеуз( Фаїїгібиїеѕ )) { 
оиїриї( " $ =\"" . бассгірибеѕ(5 р. "\"" ); 
} 

оиїриї ( ">" ); 


+ а + =“ 


сор епа е1Іетепё { 
пу( 5зе1Е, бргорегііеѕ ) = @_; 
оиїриї ( "</" . $ргорег1е$->{'Мате'} . ">" ) 
џп1еѕѕ ( зсаск бор( '116ега1' ) апа 
ѕсаск сопбаіпѕ( 'рговгат1їѕїіпр' ) ); 
рор( @е1етепї _ѕїаск ); 


4 — 


Обработка события конца элемента: отображение конечного 
тега за исключением <1іїега1> внутри <рговгат11${1п8>. 
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# Обработать событие, связанное с наличием символьных 
# данных. 
# 
ѕџо сһагасіегѕ { 
ту ( $5е1#, Ѕргорегііеѕ ) = @ ; 
# К сожалению, анализатор разбирает некоторые 
# символьные объекты, поэтому необходимо еще раз 
# переместить их вместе со ссылками объектов. 
пу Ѕдаба = $ргорегїіеѕ->{ 'Рраїа'}; 
ЅдӢаба =- $/\&/\&/; 
бааба =- 8/</\&16;/; 
ЅдӢаба =- 5$/>/\&851;/: 
оиїриї ( ЅдӢаба ); 


} 
# 


# Обработать событие комментария: включение в 
# элемент <соптепі>. 


# 
зар соптейе { 
пу( 5зе1Ё, Ѕргорегііеѕ ) = @_; 
опЕрие ( "<соттерЕ>" . $%ргорегііеѕ->{'раїёа') . "</сошиейе>" ); 


Обработать событие РТ: удалить его 


вор ргосе$51п8_1 тазЕкасЕ ор { 
# Ничего не делаем! 
} 


Обработать ссылку внутреннего объекта 
(его не нужно разбирать) 


5ию епіїіїу ге?егепсе { 
пу ( 5зе1Е, Ѕргорегёіеѕ ) = @_; 
оперы ( "&" . фргорегёіеѕ->{'М№ате') . ":" ); 
} 
ор ѕїаск їор { 
пу Ѕоџеѕѕ = 01; 
тесохп фе\етепі _ѕёаск| с#е1етепе збаск ] ед $вие$$; 
} 
вор збаск сопёаіпѕ { 

пу Ѕоџеѕѕ = з01Ё6; 

Ғогеасһ ( @е1етеп{_5фаск ) { 

гебокп 1 1Е( $ еа Ѕоџеѕѕ ); 


} 
геїигп 9; 


А ощри { 
ту $51гіпр = 5һі?; 
ргіпі $5їгіпв; 

} 

Внимательно присмотревшись к обработчикам, можно увидеть, что кроме обя- 
зательной ссылки объекта $е1 #, передается один аргумент. Этот аргумент — ссыл- 
ка на хэш-данные свойств события. Этот метод обладает одним недостатком, ко- 
торый заключается в том, что: в обработчике начала элемента атрибуты хранятся 
в хэш-данных, причем не соблюдается исходный порядок атрибутов. С позиций 
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семантики это не имеет значения, так как в ХМІ. допускается несоблюдение по- 
рядка атрибутов. Однако возможны случаи, когда необходимо воспроизводить этот 
порядок‘. 

При использовании этой программы в качестве фильтра сохраняется все со- 
держимое исходного документа, за исключением нескольких деталей, которые 
должны измениться. Программа фиксирует пролог документа, команды обра- 
ботки и комментарии. Должны сохраниться даже ссылки объекта, поскольку они 
заменяют разбираемые ссылки (так как анализатор может этого потребовать). 
Поэтому программа включает больше обработчиков, чем в предыдущем приме- 
ре, в котором нас интересовала лишь выборка весьма специфической инфор- 
мации. 

Теперь проверим эту программу в действии. Наш входной файл данных приве- 
ден влистинге 5.2. 


Листинг 5.2. Данные для программы-фильтра 


<?хті мегѕіоп="1.0"?> 
<!БОСТУРЕ роок 
СЅҮЅТЕМ "/иѕг/1оса1/ргоа/ѕвт1 /ар. ата" 


т 


<!ЕМТТТУ ЕБлоду "Һоо баб Саб Ыаһ"> 


1 
<роок 14="туБоок" > 
<?ргіпі пемраде?> 
<Е1Е1е>свхЬ іп а Миїѕће11</їії1е> 
<сһарёег 1іа="іпёго"> 
<Е1Е1е>\ФаЕ іѕ бКХІ ?</+1 Е1е> 
<!-- Требуется лучшее название --> 
<рага> 
уеЕ апоёһег аскопум. Тһаі маз ок асёібџде аё ЕлузЕ, роь Бей ме зам 
Сре атахіпс изез оЁ (1$ пех ёесһпо1оду са11еа 
<11{ега1>С®ХЕ </11{ега1>, Сопѕідег Ее Ео]Ломлпа ргодгат: 
</рага> 
<?релоЕ пемраре? > 
<ргодгат1іѕііпод>АН аоЁ -- %%%% 
{{{({{{ Лее х = 0 }}}}}} 
реіпї! <1їпеалппоѓаїіоп> <1 і їега1 >мом</1і+ега1></1іпеаппоёаёіоп> 
ог пої! </рговгамі 1$ {1п12> 
<!-- Какой шрифт нам нужен? --> 
<рага> 
УБаЕ доеѕ іб до? то сагез? Іб'ѕ јЈиѕі 1оуе]фу іо 1Іоок аё. Іп Ғасі, 
г'а һауе ёо ѕау, "&Еһіпду;". 
</рага> 
<?ргіпё пемраде?> 
</сһаріег> 
< /роокь 


1 В случае применения программы-фильтра может потребоваться сравнить версии исходного и 
обработанного файла, используя утилиту і Ё+. В результате выполнения подобного сравнения будет 
выявлено много отличим, причина которых заключается в изменении порядка следования атрибутов. 
В этом случае следует воспользоваться модулем ХМі : : ЅемапіїсріғЁ Кипа Хэмитона (Кір Натшроп). 
Этот модуль будет игнорировать синтаксические отличия, а также сравнивать только семантику двух 
документов. у 
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Результат, полученный после запуска на выполнение программы с этими дан- 
ными, представлен в листинге 5.3. 


Листинг 5.3. Результат выполнения программы-фильтра 


<роок 14="тубоок" > 
<ЕіїЛе>СКХі іп а М№іѕће11</+# ії1е> 
<сһарїег ід="ілїго" > 
<Е1Е1е>ИФаЕ 15 СКХ? </{1Е1е> 
<соппепё> пееа а реббег біб1е </соттепї> 
<рага> 
Үе апоёћег асгопум. Тһаі маз оџг асііёџде аі Е1лузе, риё еп ме зам 
Сһе атахіпо иѕеѕ оЁ һіѕ пех бесһпо1осду са11еа 
<11 їега1>6КХі </1ібека1> . Сопѕійег һе Ео11окіпа ргодгат: 
</рага> 
<рговгат1 іѕїіпе>АН аоЁ -- %%%% 
(011 её х = 0 }}}}}} 
ргіп! <1іпеаппоѓаїтіоп>мом</ 1 іпеаппоїаїіоп> 
ог пої! </рговгаті їіѕ5іпе> 
<соммеп{> ућас Ғопі зћһола ме чзе? </сотмепі> 
<рага> 
үһас доеѕ і до? о сакеѕ? Іб'ѕ јиѕі 1оуе1у іо 1Іоок аі. Ш Ғасі, 
г'а Һауе ёо зау, "&Еһіпду;". 
</рага> 
</сһарёег> 
</роокь 


А теперь проверим, что было сдслано верно программой-фильтром. Она пре- 
образовала ХМІ-комментарий в элемент <сомтепї> и удалила команды обра- 
ботки. Элемент <11{ега1 >, входящий в состав элемента <рговгат1 1${1п5>, был 
удален, причем его содержимое не разбиралось, в то время как другие элементы 
<1{ега!> сохранились. Объсктные ссылки остались неразрешенными, как и 
требовалось. Пока все правильно. Но кое-чего не хватает. Исчезли ХМІ.-объяв- 
ление, объявление типа документа и внутреннее подмножество. Без объявления 
объекта Иипву этот документ не достоверен. Оказалось, что имеющихся в нали- 
чии обработчиков недостаточно. 


ОТО-обработчики 


Модуль ХМЕ : : Рагзег: : РегіЅАХ поддерживает другую группу обработчиков, ко- 
торые используются для обработки ОТО-событий. Причем субъектом в этом 
случае выступает все, что находится до таких основных элементов, как ХМГ-объ- 
явлеиие, объявление типа документа и внутреннего подмножества объекта и объяв- 
лений объекта. Все это называется ирологом документа. Если нужно получить до- 
кумент в исходном виде (например, в программе-фильтре), необходимо определить 
некоторые из этих обработчиков для порождения пролога документа. Определе- 
ние этих обработчиков — это именно то, что нужно было выполнить в предыду- 
щем примере. 

Подобные обработчики могут применяться в других целях. Например, возмож- 
на предварительная загрузка описания объектов с целью специальной обработки, 
вместо того чтобы надеяться на то, что анализатор сделает эту подстановку по умол- 
чанию. Эти обработчики приведены в табл. 5.2. 
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Таблица 5.2 Обработчики РейЅАХ ОТО 


Имя метода Событие Свойства 
епїі ту_аес! Анализатор воспринимает объявление Мате, 
сущности (внутренней или внешней, Уаіџе, РиБ1їс1а, 
прошедшей или не прошедшей ЅуѕїіетІа, Мотайоп 
синтаксический разбор) 
поїаїіоп_дес1 Анализатор обнаружил объявление записи Мате, Рибіісіа, 
Зуз{ет!а, Ваѕе 
ипрагѕеа _ Анализатор обнаружил объявление сущности, Мате, РибИс!а, 
епїі +у_дес1 не прошедшей синтаксический разбор Зузтет!а, Ваѕе 
(например, двоичного элемента данных) 
еетеп!_аес! Обнаружено объявление элемента Мате, Моде! 
а {1151 десі Встречено объявление списка атрибутов Е1етепі Маме, 
Аїїгіри+еМате, 
элемента Туре, Еіхеа 
Мате, Ѕуѕіетіа, 
аостуре_аес! Анализатор нашел объявление типа документа РибИс!а, |{егпа! 
Мегѕіоп, Епсоаіпд, 
хті десі Найдено ХМІ-объявление З1апда!опе 


Обработчик еп{11у_4ес! () вызывается для всех видов объявлений сущно- 
стей, если не определен более специфический обработчик. Поэтому объявления 
сущностей, не прошедших синтаксический разбор, приводят к запуску обработ- 
чика еп{ 14 у_Чес\ (), если не определен обработчик ипрагѕей епїіїу _аес1(), 
который имеющий более высокий приоритет. 

Параметры обработчика епїіїу аес1 () изменяются в зависимости от типа сущ- 
ности. Параметр Уаше устанавливается для внутренних переменных, но не для 
внешних. Параметры Рир1і сій и 5уѕїепі а, которые указывают ХМІ.-процессору, 
где найти файл, содержащий значение объекта, устанавливаются только для вне- 
шних переменных и не определяются для внутренних переменных. Параметр Ваѕе 
сообщает процессору о том, что будет использоваться в качестве базовой ОКІ.- 
ссылки в случае, если параметр Зу${ет14 содержит относительный адрес. 


Объявления записи — это специальное свойство ОТО, допускающее назначение 
специального идентификатора типа для объекта. Например, можно объявить тип 
данных объекта "Ӣаїе", сообщив ХМГ-процессору о том, что объект нужно рас- 
сматривать в качестве объявленного типа данных. Это свойство не часто исполь- 
зуется в ХМГ-коде, поэтому в дальнейшем не будем рассматривать подобную си- 
туацию. 

Свойство Моде! обработчика еІетепі есі () включает модель содержимого 
или грамматику для элемента. С помощью этого свойства описываются свойства, 
включаемые внутрь элемента в соответствии с ОТО-объявлением. 

Объявление типа документа — это необязательная часть заголовка документа, 
расположенная непосредственно под ХМГ-объявлением. Параметр Мате опреде- 
ляет имя корневого элемента в документе. С помощью параметров Риб11с14 и 
Ѕ5уѕіетіа процессор получает сведения о местонахождении внутреннего подмно- 
жества ОТО. Параметр [п{егпа| определяет все внутреннее подмножество в виде 
строки на тот случай, если требуется пропустить отдельный объект и не выпол- 
нять обработку объявления элемента. 
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Предположим, что необходимо дополнить код листинга программы-фильтра, 
реализующего получение пролога документа именно в том виде, в котором он раз- 
бирается анализатором. В таком случае необходимо определить обработчики, как 
описано в листинге 5.4. 


Листинг 5.4. Усовершенствованная программа-фильтр 
# Обработка хмі-объявления. 


# 
ою хт десі { 
шу( $зе1Е, Ѕркорегііеѕ ) = ё; 
оцериб ( "<?хті уегеіоп=\"" . $ргорегїіеѕ-> { 'Мегѕіоп'}) . "\"" ); 
му $епсоаіпрв = $ргорегїіеѕ-> { 'Епсодіпв'}; 
оцероб ( " епсоаіпр=\ " Фепсодіпр\"" ) 1Е( $епсоаіпр ); 
пу Ѕѕбапда1опе = $ргорегїіеѕ-> { ' 5їапда1опе'} ; 
оџериё ( " ѕёапда1опе=\"Ѕ$ѕёапда1опе\"" ) 
1#( $5еапда1опе ) ; 
оиїриї( " ?>\п" ); 
} 
# 
# Обработка объявления типа документа: 
# попытаемся скопировать оригинал. 
+ 
зи аосіёуре дес1 { 
му ( $5е1#, $ргорегїіеѕ ) = ё; 
ооероё ( "\п<!рОСТҮРЕ " . фргорегїіеѕ-> { '№ате'} 
аан 


пу Ѕ5риріа = $ргорегѓёіеѕ-> { 'Рир1іс1а'}; 
1Е( $%риріа ) { 
оиіриї( " РОВЫТС \"фриріа\"\п" ); 
оџіроё ( " У" . бргорегііеѕ-> 
{ '5уѕёета'}. "\"\п" ); 
} вазе { 
опЕриЕС " 5ЅҮЅТЕМ У" . $ргорегЕ1е$-> 
{'бузтет19'}. "\"\п" ); 


} 
пу Ѕіпіѕеб = $ргорегёїеѕ->{ 'Іпёегпа1'}; 
1Е( Ѕ$іпёѕеб ) { 
біп іпіѕеб = 1; 
опЕрие ( " Ка"): 
} езе { 
оибриЕ ( ">\п" ); 
} 


Обработать объявление сущности во внутреннем 
подмножестве, восстановить оригинальное объявление 
# в прежнем виде. 
# 
зар епёібу десі { 
пу ( $5е1Е, Ѕргорегііеѕ ) = @_; 
пу папе = фргорегїјеѕ-> { 'Мате'}; 
ооероёС "<!ЕМТТТУ $папе " ); 
пу $риюіа = $ргорегїіеѕ-> { 'Рир1іс1а'}; 
пу 55уѕіа = $ргорегііеѕ-> { ' 5уѕїетм1а'); 
1Е( брома ) { 
опЕриЕ ( "РОВІТС \"Ѕроріа\" \"бвузла\"" ); 


ЗН чен 
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} ез1Е( Ѕ$ѕузіа ) { 
оиїриї ( "ЅҮЗТЕМ \"Ѕѕуѕ1а\"" ); 
} еіѕе { 
олард ( "\"" . фргорегїіеѕ->{ 'Ма1џе') . "\"" ); 


оиёриї( ">\п" ); 


Теперь рассмотрим, как выглядит результат выполнения программы-фильтра 
(см. листинг 5.5). 


Листинг 5.5. Результат выполнения программы-фильтра 
<7хт[ уегѕіоп= "1.0"? > 
<1рОСТҮРЕ Боок 
ЅҮЅТЕМ " /иѕг/1оса1 /ргоа/ѕоті /аь.аба" 


[ 
<1ЕМТІТҮ іһіпду "Һоо Һаһ аб Ю1аһ"> 
1> 
<роок ід= "туђбоок" > 
<6161е>СВХГ іп а М№иїѕһе11</11і 61е 
<сһарёег іа="іпїго"> 
<Е1Е1е>Фае 1$ САХі ?</їіїіЛе> 
<соттепї> пееа а реббег біб1е </сотпепё> 
<рага> 
Үе апоёћег аскопут. Тһаі маз оџг аббібоде аб Ғіүѕб, роь (еп ме зам һе 
апағіпо џѕеѕ оЁ іһізѕ пем сесһпо1оду са11еа 
<1іїегаї1>СКХі </1іїегаі>. Сопѕійег Ее Ғо11оуіпо ргодгат: 
</рага> 
<ргоргат11${1п5>АН аоЕ -- %%%% 
{{{{{{ ее х=0 }}}}}} 
ргіпї! <11їпеаппоёаїіоп>мои< / 1 іпеаппоїаїіоп> 
ог пої! </рговгаміїѕїіпв> 
<соппепі> ућас Еопе збой1а ме џѕе? </сомтепї> 
<рага> 
\МПаЕ доеѕ И д0? Мю сагез? 11'5 ји5ї ІоуеІу їо Іоок аї. т ?асї, 
га һаме їо ѕау. "&іһіпву;". 
</рага> 
</спарфег> 
</роок> 


Так гораздо лучше. Создана завершенная программа-фильтр. Основные обра- 
ботчики занимаются элементами и их содержимым, а ОТО-обработчики ~ всем 
тем, что может произойти вне корневого элемента. 


Разрешение внешних сущностей 


По умолчанию анализатор заменяет все объектные ссылки объекта их фактически- 
ми значениями. Как правило, это именно то, что нужно, но иногда, как в примере 
программы-фильтра, предпочтительнее сохранить объектиые ссылки. Эту операцию 
можно выполнить нутем включения метода обработчика епїі їу геѓегепсе (). Не- 
ясным остается вопрос о том, как переопределить обработку по умолчанию ссы- 
лок внешних объектов. Также анализатор заменяет ссылки их значениями посред- 
ством выяснения местонахождения файлов н включения их содержимого в поток. 
Потребуется ли в какой-нибудь ситуации изменить это поведение и, если да, как 
это следует сделать? 
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Сохранение документов в нескольких файлах удобно, особенно в случае дей- 
ствительно больших документов. Например, в случае наличия большой книги, 
написанной с применением ХМГ-кода, каждая глава этой книги должна сохра- 
няться в отдельном файле. Это можно выполнить без особого труда посредством 
применения внешних сущностей. Например: 


<?хтїі мегз1оп="1.0*?> 

<досїуре Боок [ 
<!ЕМТТГУ іпїго-сһарїег БУЭТЕМ "сһарїег5ѕ/ іпїго. хм1 "> 
<!ЕМТТТУ разба-сбарбехт ЅҮСТЕМ "спарфег$/раз{фа. хті" > 
<!ЕМТТТУ 5#іг#гу-сһарїег 
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<Љоок 


В предыдущем примере программа-фильтр ориентирована на разрешение вне- 
шних объектных ссылок, в резул ьтате всего вся книга будет выведена в виде одной 
сущности. В таком случае схема разбиения файла была бы утеряна, и пришлось бы 
выполнять редактирование путем его повторного разбиения на несколько частей. 
К счастью, можно переопределить разрешение внешних объектных ссылок, исполь- 
зуя обработчик геѕо\1уе епііїу (). 

Этот обработчик включает четыре свойства: Мате — имя объекта; Ѕ5уѕїет1а и 
Риб1їсІа — идентификаторы, которые позволяют определять местоположение 
файла, содержащего текст объекта. Также определяется параметр Вазе, который 
помогает разобрать соответствующие ОВГ-ссылки, если таковые существуют. В от- 
личие от других подобных случаев этот обработчик должен возвращать значение, 
которое указывает анализатору на выполняемые действия. Возврат значения оипаеѓ 
указывает обработчику на то, что требуется загрузить внешнюю сущность в ее ис- 
ходном виде. В противном случае необходимо возвратить хэш-данные, описываю- 
щие альтернативный источник, с применением которого производится загрузка 
объекта. Они имеют тот же тип, который используется для передачи сущности с 
применением метода рагзе (), причем помощью ключа Ѕуѕїетїа передается имя 
файла или ОВГ, а $5ёгіпе — строка текста. Например: 


ошо геѕо1уе епїіїу { 
ту ( Ѕ5е1Ғ, $ркорв ) = @_; 
1Е( ехіѕіѕ( бргорз->{ $уѕїіетіа }) ая 
ореп( ЕМТ, $ргорз->{ Ѕуѕёета })) { 
пу Ѕепімаі = '<?5#агі-#і1е ' . $ркорз-> 
{ Зузбаща } . '?>': 
мһіЛе( <ЕМГ> ) { $епёуа1 .= 5 ; } 


сІіоѕе ЕМТ; 
Ѕепсуа1 .= '<?епд-Ғі1е ' . бркорв-> 
{ Ѕуѕзсаша } .'?>'; 


герлуп { була => фепіма1 }; 
} азе { 
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геїигп опде?; 


} 


Эта процедура открывает источник сущности в найденном файле и передает 
его анализатору в виде строки. Сначала подключается команда обработки, поме- 
щенная до и после текста объекта, отмечая границу файла. Затем можно написать 
подпрограмму, которая производит поиск инструкций по обработке и вновь раз- 
бивает файлы. 


Драйверы источников, не включающих ХМІ-код 


В листинге, описывающем программу-фильтр, использовался файл, содержащий 
ХМІ-документ в качестве источника входных данных. Этот пример демонстриру- 
ет лишь один из многих способов использования ЗАХ. Другое его распространен- 
ное применение — чтение данных с применением драйвера, который формирует 
поток данных из источника, не являющимся ХМГ-кодом, например из базы дан- 
ных. Драйвер ЗАХ преобразует поток данных в последовательность ЗАХ-событий, 
которые могут обрабатываться с помощью ранее применяемого способа. Достоин- 
ство этого метода состоит в том, что можно использовать одну и ту же программу 
независимо от имеющегося источника данных. Поток ЗАХ-событий абстрагиру- 
ется от данных и разметки, поэтому эти объекты игнорируются при дальнейшей 
обработке. Изменения, вносимые в программу для работы с файлами и другими 
драйверами, будут незначительными. 

С целью отслеживания выполнения драйвера создадим программу, которая ис- 
пользует модуль ХМЕ : : ЅАХОгічег: : Ехсе! Ильи Стерина (Пуа Ѕќсгіп) с целью пре- 
образования электронных таблиц Місгоѕой Ехсе! в ХМГ-документы. Этот пример 
иллюстрирует, каким образом реализуется конвейерный способ обработки потока 
данных. Объект Ѕргеаайѕһееї: :РагѕеЕхсе1 считывает файл и генерирует общий по- 
ток данных, который объект ХМІ: : $АХОг1уег: :Ехсе! преобразует в поток ЅАХ-со- 
бытий. Затем этот поток выводится программой в качестве ХМГ-документа. 

Рассмотрим следующую электронную таблицу в формате Ехсе[: 


А В 
1 Бейсбольный мяч 55 
2 Теннисный мяч 33 
3 Мяч для настольного тенниса 12 
4 Футбольный мяч 77 


ЗАХ-драйвер будет порождать новые элементы, передавая имена в виде аргу- 
ментов с целью вызова методов обработчика. Выведем их па печать в исходном 
виде, а затем проследим, каким образом драйвер структурирует документ, Опи- 
санные действия реализованы кодом, приведенным в листинге 5.6. 


Листинг 5.6. Программа разбора таблицы Ехса 


иѕе ХМЕ: : ЗАХОгтуег: : Ехсе1; 

# Получить имя файла для обработки. 

91е( "Миѕїі зресМу ап іприї Пе” ) ип1е$$( @АКСУ ): 
ту $#11е = $НИЕ @АВСУ; 

ргіпі “Рагзта $1Пе...\п"; 
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# Инициализация анализатора. 

ту Ѕһапа1ег = пех Ехсе1 ЅАХ Напа1ег; 

ту %ргорѕ = ( боиксе => { ЅуѕїемІа => %$#іле }, 
Напа1ег => бЅһапа1ег ); 

пу фагіуег = ХМі : : ЗАХОг1уег: : Ехсе1->пем( %ргорѕ ); 

# Начать синтаксический разбор. 

Ѕагіуег->рагѕе( %ргорѕ ); 

# Определенный нами пакет обработчиков выведет ХМІ-документ 

# после получения 5ЗАХ-сообщений. 

раскаде Ехсе1_5АХ Напа1їег; 

# Инициализация пакета, 


ар пех { 
пу Ѕбуре = ѕһіЁі; 
пу 6зе1Е = {@ }; 


гебогп рі 55( 55 ТЕ, $їуре ); 
} 
Создание самого внешнего элемента. 
сию эбах’Е_Чосимете { 
ріп "<дос>\п"; 
} 
Конец элемента документа, 
зир епа_аоситейе { 
риф пе "</аос>\п"; 


} 


Обработка любых символьных данных, 
ѕџюо сһагасёегѕ { 
пу( 5зе1Е, $ргорегїіеѕ ) = @ ; 
пу ЅдӢаба = $ргорегїіеѕ-> { 'Рраїа'); 
ргіп даба 1Е де?іпеа($даїа); 

} 

# Начало нового элемента ‚ вывод начального тега. 

сию збахЕ_е1етепе { 

пу ( 5зе1Е, Ѕргорегііеѕ ) = @ ; 
пу бпаше = фргорегїіеѕ-> { '№ате'}; 
ргіпё "<Ѕпате>"; 

} 

# Конец нового элемента. 

сор епа е1емепе { 

пу ( Ѕѕе1#, $ргорегїіеѕ ) = @; 
пу $пате = $ргорегїіеѕ-> { 'М№ате'}; 
рі пі "</5$пате>"; 

} 

Нетрудно заметить, что методы обработчика весьма похожи на те, которые ис- 
пользовались в предыдущем примере с ЗАХ. Изменились лишь действия, которые 
производятся по отношению к аргументам. Теперь рассмотрим, каким образом 
выглядит результат, когда в качестве исходных данных программы служит следу- 
ющий тестовой файл: 


<ФфФс> 
<ивсоиЯе> 
<иесоиа> 
<со1итп1>Базера1 15</со1итп1> 
<со1итп2>55 < /со1цтп2> 
</увоокф 
<«тесокф 
<со1итл1> ёеппіѕра11 ѕ5</ со1итп1> 
«со1итп2>33</со1итп2> 
</увожф 
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<гесога> 
<со1итп1>р1пёропв ре115</соћтп1> 
<со1итп2>12</со1итп2> 
</хесока> 
<гесога> 
<со1итп1> #ооїра115</ со1 итп1> 
<со1итп2>77</со1итп2> 
</хесога> 
<гесота> 
Оѕе ОЁ ипіміїіа1іғеа уа\е іп ріп ас сопу те 39. 
<со1итп1></со1итп1> 
Оѕе оЁ ипіпіїіа1іғед уә10е іп ришЕ аё сопу ше 39. 
<соптп2></сопштп2> 
</гесога> 
</гесогаѕ></40с> 


Драйвер выполнил большую часть действий но созданию элементов и форма- 
тированию данных. Все, что было выполнено нами, — вывод пакетов, переданных 
в форме вызовов метода. Весь документ был заключен в теги <гесогӣѕ>, благода- 
ря чему использование тега <4ос> стало излишним. (При следующей переработке 
программы сделаем так. чтобы методы ѕїагї доситепї() и епа_доситеп® () ни- 
чего не выводили.) Каждая строка электронной табл ицы помещается внутри тегов 
<гесога>. Наконец, два столбца различаются метками <со1итп1> и <со1итп2>. 
В итоге получился весьма неплохой результат. 

Как видим, с минимальными усилиями были использованы возможности ЅАХ 
для выполнения довольно сложной работы по преобразованию одного формата в 
другой. Фактически, драйвер автоматизирует процесс преобразования. При этом 
достигается уровень гибкости, достаточный для интерпретации событий. Поэто- 
му можно отказаться от применения неподходящих данных (например, пустых 
строк) или переименовать элементы. Также можно выполнить сложную обработ- 
ку, например, найти сумму значений и упорядочить строки. 


Базовый класс обработчиков 


Интерфейс ЅАХ не различает элементы, предоставляя возможность выполнять эти 
действия разработчикам. Необходимо рассортировывать имена элементов в обра- 
ботчике ѕїагі е1етепї () и, возможно, использовать стек, чтобы отслеживать иерар- 
хию элементов. Нет ли какого-либо способа обобщения излагаемых идей? Для это- 
го предназначается модуль ХМ. : : Нап ег: : $6$ Кена МакЛеода (Кеп МасГео9). 

Здесь определен объект, который группирует вызовы обработчика для более 
специфических обработчиков. Если нужен обработчик только для элементов 
< 14 1е>, сго создание не составит особого труда. Обработчик для начального тега 
должен начинаться комбинацией $_, за которой следует имя элемента (специаль- 
ные символы заменяются подчеркиванием). Обработчик конечного тега имеет ана- 
логичный вид, но начинается комбинацией символов е. 

Это еше не все. Базовый объект также имеет встроенный стек и предоставляет 
метод доступа, применяемый с целью проверки нахождения анализатора внутри 
определенного элемента. Переменная $е1Ё- > {Мамез } ссылается на стек имен эле- 
ментов. Метод іп е1етепї ($пате) используется в любой момент времени для про- 
верки, находится ли анализатор внутри элемента, имеющего имя $пате. 
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С целью выполнения проверки напишем программу, которая производит спе- 
цифическую обработку элементов. При анализе файла, включающего НТМІ -код, 
программа выводит содержимое элемента <һ1>, включая встроенные элементы, 
используемые для визуального выделения (например, выделения с помощью спе- 
циального шрифта). Программа, код которой представлен в листинге 5.7, чрезвы- 
чайно проста. 


Листинг 5.7. Программа, реализующая создание подклассов на базе обработчиков 


и5е хмЕ: : Рагѕег: : Рег15АХ; 
иѕе Хм; : Напд1ег: : 5р5 


# 
Инициализация обработчика. 


цѕе ХМ: :Рагѕег::Рег15АХ; | 

пу Эрахзег = ХМЕ: :Раг$ег: : Рег15АХ->пем( Напбег => НІ ахаббег->пем() ); 
Ѕрагѕег->рагѕе( бойусе => {5уз*ет1а => Ё @АВСУ} ); 

Объект обработчика: НІ отаррег. 


раскаде Н1Т_акабфег; 
исе Базе( 'ХМЕ: : Напд9Тег: :$465' ); 
зар пем { 
пу ббуре = з51ЕЕ; 
пу $$5е11{ = {@_}; 
гебшт Ю1еѕѕ ( $$е1+*, Ѕбуре ); 
} 


# 
# Обработка начала документа. 


зар ѕбагі досотепё { 
ОРЕВ: :збагі _Чосимейе ( ); 


ріп "Ѕитагу оЁ #іЛе: \п"; 


# Обработка начального тега <«ћ1>: использовать скобку в 
# качестве ограничителя. 


Обработка конечного тега <«ћ1>: использовать 
скобку в качестве ограничителя. 


зе { 
ргіпё "]\п"; 


Обработка символьных данных. 


зи6 сһагасёегѕ { 
пу( $$е1{, $ргор$ ) = ё; 
пу бдаба = $ргорз->{Раба}; 
‘реше $дафа 1Е( $ѕе1#->іп_е\етепї( №1 )); 
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Запустим программу на выполнение, воспользовавшись следующим тестовым 
файлом: 
<і> 


<Һеаб><1іїЛе>Тһе ТлЕе ага Тіптеѕ 
ОЕ Еообу</е1ї1е></һеай> 


«воду аѕ а сһії1а</һ1> 


<5>...</р> 
<ћ1>Ғоору столе ир</ћ1> 
<р>. .</р>. 
<Н>РооБу і5 ій <ет>Бів</ет> їгоиріе!</> 
028 .</р> 
< 
</піті> 
Результат выполнения программы имеет вид: 


оғ Ше: 


Ғообу аз а сћіа] 
[аз отом5 Цр] 
15 іп Ыі ночей 


Благодаря обращению к методу іп_е1етепї () включается текст элемента < ет >. 
Определенно, модуль ХМЕ: : Нап д1ег: : 506 весьма полезен для выполнения ЅАХ- 
обработки. 


ХМЕ: :Нап4ег: :УАМЛКег как базовый класс 
обработчиков 


Модуль ХМІ: : Напд1ег: : УАМг ег Майкла Коэна (М!сБае] Коећп) — пример «еще 
одного» генератора ХМГ-кода. Он может регистрировать сам себя, но в то же вре- 
мя является автоматически настраиваемым базовым классом, предназначенным 
для выполнения всех видов действий, связанных с ЅАХ. 

Если вы когда-либо работали с различными базовыми классами Ре! вида Те: 
то поймете, что здесь применяется сходная идея: вы начинаете с базового класса с 
определенными обратными вызовами, которые способствуют выполнению всех вы- 
зовов подпрограмм, запущенных ЗАХ-событиями. В своем классе драйверов дос- 
таточно переопределить подпрограммы, которые должны выполнять какие-либо 
специальные действия и воспользоваться правилами поведения, заданными по умол- 
чанию для всех событий, обработка которых необязательна. 

В этом случае поведение, заданное по умолчанию, также обеспечивает некото- 
рые преимущества: доступ к массиву строк (хранящемуся в виде переменной эк- 
земпляра в объекте обработчика) блокирует ХМІ -документ, который создает вхо- 
дящие ЅАХ-события. Это не так важно, если источником данных был ХМГ-код, но 
если для формирования потока событий из случайного источника данных исполь- 
зуется драйвер в стиле РегіЅАХ, эта особенность будет весьма полезной. Она обес- 
печивает простой способ, например, преобразования файла, не являющегося ХМГ- 
документом, в его ХМГ-эквивалент с последующим сохранением копии на диске. 

Применяемый в этом случае компромисс заключается в том, что не стоит забы- 
вать выполнять $$е11->50РЕК: : [имя_метода] при реализации методов обработ- 
ки событий. В противном случае ваш класс может «потерять свои корни» и не вклю- 
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чит элементы во внутренний массив строк в его исходном представлении, из-за 
чего в полученном ХМГ-документе появятся «дыры». 


Второе поколение ХМ(: :5АХ 


При распространении ЗАХ-анализаторов возникают две проблемы. Сложности 
проявляются в ходе их приведения в соответствие со стандартными АРІ, а также 
в ходе организации в своей собственной системе. Созданный совместными уси- 
лиями Мэтта Сержанта (Май Ѕегееапі), Кипа Хэмптона (Кір Натрќоп) и Роби- 
на Берджена (Кош Вецоп) модуль ХМ. : : ЗАХ позволяет решать эти проблемы 
одновременно. Также обеспечивается поддержка для ЅАХ уровня 2, отсутствую- 
щая в предыдущих модулях. 

Спрашивается: «В чем суть поддержки синхронизации модулей и АРІ?». До 
сих пор мы предлагали использовать такой стандарт, как ЗАХ, для обеспечения 
взаимозаменяемости модулей. Однако при этом проявляется свой недостаток: в 
Рег существует несколько способов реализации ЗАХ. Интерфейс ЅАХ первона- 
чально предназначался для языкајаха, в котором присутствует замечательный тип 
интерфейса класса. С помощью этого типа можно фиксировать, например, тип ар- 
гумента, передаваемый конкретному методу. Ничего подобного в Рег| нет. 


В ранних ЗАХ-модулях, как упоминалось ранее, в этом случае не возникало 
особых проблем. Все они поддерживают ЗАХ уровня 1, который довольно прост в 
реализации и применении. Однако с появлением новых поколений модулей ста- 
новится возможной поддержка ЅАХ2. Интерфейс ЅАХ2 более сложен, поскольку 
появляются пространства имен, допускающие смешанное представление. Обра- 
ботчик события элемента должен получать в свое распоряжение префикс простран- 
ства имен и локальное имя элемента. Каким образом эта информация передается 
посредством входных параметров? Определяется ли она в одной и той же строке, 
например, в виде Фоо:Баг? Или же она распределяется в соответствии с двумя 
параметрами? 


При обсуждении этих вопросов порождалось множество горячих дискуссий в 
списке рассылкире"-хт[ до тех пор, пока несколько ее участников не решили изоб- 
рести спецификацию для ЅАХ, реализованного в стиле Ре!| (сейчас будет проде- 
монстрировано, каким образом следует использовать для ЅАХ2 новый АРІ). Что- 
бы поощрить остальных членов сообщества присоединиться к этому соглашению, 
модуль ХМі : : ЗАХ включает класс, называемый ХМі : : ЗАХ; : РагзегРасфоту. Класс 
Ғасїогу — этообъект, единственной задачей которого является порождение объекта 
особого типа, в данном случае анализатора. Модуль ХМЕ: : ЅАХ : РагѕегГҒасіогу 
определяет удобный способ выполнения вспомогательных, рутинных операций, 
связанных с анализатором, например, регистрацию его опций и требований ини- 
циализации. Просто укажите требуемый вид анализатора, и в ваше распоряжение 
будет предоставлена соответствующая копия. 

Модуль ХМЕ: : ЗАХ реализует «уклон» в сторону совместного применения ХМІ. 
и Рег. Он основывается на опыте работы, включающей все лучшие возможности 
предыдущих модулей наряду с проведенной «работой над ошибками». С целью 
обеспечения реальной совместимости модулей обеспечивается базовый класс ана- 
лизатора. При этом производится абстракция от большей части обычной работы, 
присущей всем анализаторам. Причем в обязанности разработчика входит реали- 
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зация уникальных свойств, характерных именно для данной задачи. Он также со- 
здает абстрактный интерфейс для пользователей анализатора, обеспечивая под- 
держку множества разнообразных модулей, организованных согласно реестру. 
Здесь выполняется индексация с применением свойств, в результате чего упроша- 
ется составление запросов на поиск необходимого модуля. Этот шаг имеет боль- 
шое значение, поэтому будьте готовы к восприятию значительного объема инфор- 
мации и подробностей, содержащихся в этом разделе. По мнению автора, это будет 
полезным во всех отношениях. 


Интерфейс ХМЕ::ЗАХ::РагзеРасюгу 

Начнем с интерфейса, обеспечивающего выбор анализатора, ХМГ: ЗАХ: :РагзегЕасфоту. 
Для тех, кто успел поработать с ОБТ, этот класс весьма знаком. В данном случае 
мы имеем дело с внешним интерфейсом для всех анализаторов, представленных в 
вашей системе. Достаточно запросить новый анализатор у фабрики, после чего он 
будет предоставлен в распоряжение пользователя. Предположим, что требуется 
какой-либо ЗАХ-анализатор, применяемый совместно с пакетом обработчиков 

Е: :5АХ: : МуНапалег. 

Рассмотрим, как выбрать анализатор, а затем воспользоваться им для чтения 
файла: 

И5е ХМЬ: : ЅАХ: : РагѕегҒасбогу; 

ОЅе ХМІ. : : ЅАХ: : МуНапаїег; 

пу $ПапаТег = пехХМЕ: :5АХ: :Мунао Тег; 

пу Эрагзег = ХМЬ: : $АХ: : РагзегРасфогу- >рагзег ( На Пег => Фпап ег ); 

$рагзег->рагзе_иг1( "Ғоо.хті" ); 

Получаемый в данном случае анализатор зависит от порядка, в котором уста- 
новлены модули. Последний модуль (со всеми доступными возможностями, ука- 
занными с помощью параметра Веди! геаЕеа{игез) будет возвращен по умол- 
чанию. Однако возможно, что он не требуется в этой ситуации. МодульХмі : : ЗАХ 
поддерживает реестр ЗАХ-анализаторов. Каждый раз, когда устанавливается 
новый анализатор, производится его автоматическая регистрация в реестре, по- 
этому возможно получения доступа к нему с помощью РагзегРас{оту. Если из- 
вестно, что анализатор ХМІ:8АХ: :ВоЬѕРагѕег установлен, можно потребовать 
его экземпляр, присвоив значение переменной $ХМІ: :ЅАХ: : РагзегРасКазе сле- 
дующим образом: 


ОЅе ХМЕ : : ЅАХ: : РагѕегҒасїогу; 

ие ХМЕ : : ЅАХ: : МуНапа1їег; 

пу Эпапаег = ПВМ/ ХМЕ : : ЅАХ: :МуНапд1ег; 

$ХМЕ: : АХ: :РагзегРаскаве = "ХМ: : АХ: :ВобзРагзег( 1.24 )"; 

ппу Ѕрагѕег = ХМ: :.РагѕегҒасіогу->рагѕег( Напаег => 'Эпапаег ); 


В результате присваивания переменной $ХМЕ : : ЅАХ РагѕегРаскаве значения 
ХМІ: :5АХ: :ВобзРагзег( 1.24) возвращается экземпляр пакета. При выполнении 
анализатора РагзегРас{огу запрашивается метод гедиі ге(), а затем вызыва- 
ется соответствующий метод класса, пем (.). Значение переменной, равное 1.24, 
устанавливает минимальный номер версии анализатора, Если эта версия не ус- 
тановлена в системе, генерируется исключительная ситуация. 

Чтобы получить список доступных анализаторов, предназначенных для моду- 
ля ХМЕ: : ЗАХ, вызовите метод рагѕегѕ (): 
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- че ХМ_: :5АХ; 
пу @рагѕегѕ = @{ХМЕ: : ЅАХ->рагѕегѕ( )}; 
Ғогеасћ шу 5р ( @рагѕеуѕ ) { 
пришЕ "\п", Ѕр->{ Ме }, "\п"; 
Ғохеасһ пу 5Е ( оі Ккеуѕ %{$р->{ Реабоиез }} ) { 
реп "Е => ", $р->{ Беабжеѕ }—{ $Е } 
} 


} 


Этот метод возвращает ссылку на список хэш-данных, в котором каждый эле- 
мент содержит информацию об анализаторе, включая его имя и хэш-данные свойств. 
При описании предыдущей программы указывалось, что модуль ХМ! ; : ЗАХ включа- 
ет два зарегистрированных анализатора, причем каждый из них поддерживает про- 
странства имен: | 


ХМЕ:  Е1ЬХМЕ: : ЅАХ: : Рагѕег 
Бебр: / /ж .око/ѕах/Ғеаолкеѕ/патеѕрасеѕ => 1 
ХМі : : ЅАХ: ; РигеРег1 
пір: //хтї . огё/зах/Теафиге$ /памезрасе$ => 1 


На момент издания ЭТОЙ КНИГИ существовало только два анализатора, вклю- 
ченных в ХМі : : ЗАХ Анализатор ХМІ:: 10ХМі. : :5АХ: : Рагѕег или ЗАХАР] для биб- 
лиотеки Ёрхті2 будет широко применяться в главе 6. С целью его применения тре- 
буется установка в вашей системе Йбхт!2 - скомпилированной, динамически 
связываемой библиотеки, написанная наязыке С. Это способ является достаточно 
быстрым, но степень его переносимости ограничена, особенно, если не доступен со- 
ответствующий ДВОИЧНЫЙ код или невозможно скомпилировать этот модуль само- 
стоятельно. Исходя из названия следующего анализатора, ХМЕ: :ЅАХ: : РигеРе!|, 
МОЖНО прийти к выводу, что он полностью написан наязыке Реп. Здесь обеспечива- 
ется достаточная степень переносимости, поэтому возможно выполнение в любой 
системе, где установлен Рег]. Этот начальный набор анализаторов предоставляет в 
распоряжение пользователя несколько различных рабочих вариантов. 


Также имеет значение список свойств, соответствующий каждому анализато- 
ру, поскольку он позволяет пользователю выбирать анализатор, исходя из набора 
установленных критериев. Например, пусть требуется анализатор, который бы 
выполнял проверку достоверности и поддерживал пространства имен. Такой ана- 
лизатор можно запросить посредством вызова метода гедиі ге_Феафиге () объек- 
та ЃЁасѓогу: 


пу $Ғасіогу = пам ХМЕ: : ЅАХ: :Раг5егРастогу; 
$Тасфогу->геди1ге_Теафиге( 'һїїр://хті.огр/ѕах/ Ғеаигеѕ/уа1ідаїіоп' ); 
ЅҒасіогу->тесиі ге ?еаїиге( 'һіїр: //хмі.огр/ѕах/Ғеаїигеѕ/патеѕрасеѕ' ); 
му Эраизег = ф#асїогу->рагѕег( Ней ег => $һапа1ег ); 
Также можно передать конструктору Еасбоку следующую информацию: 
пу $Растогу = пет ХМІ : :5АХ: : Раг5егРастогу ( 
Кеци1ге4_Театиге$ => { 
"Һер: //хтІ.огв/ѕах/ Ғеаїигеѕ/ма1їдаїіоп' => 1 
'ВЕбо://х .ого/ѕах/Ғеабогеѕ/папеѕрасеѕ' => 1 
} 


): 

пу Эрагзег = $Ғасїогу->рагѕег( Нап ет => $папд1ег ); 

Если различные анализаторы успешно проходят тест, будет использован тот из 
них, который установлен последним. Однако, если фабрика не может найти ана- 
лизатор, удовлетворяющий выдвинутым требованиям, просто генерируется исклю- 
чительная ситуация. 
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Чтобы добавить ЅАХ-модули в реестр, достаточно их загрузить и установить. 
Соответствующие установочные пакеты должны «знать» о ХМі : : ЅАХ и автомати- 
чески регистрировать модули с его участием. Чтобы добавить ваш собственный 
модуль, можно использовать метод ааа рагѕег() модуля ХМЕ: :ЗАХ, указав спи- 
сок имен модулей. Убедитесь в том, что он удовлетворяет соглашениям модулей 
по подклассам ХМЬ: : 5АХ: :Ваѕе. Затем будет продемонстрировано, каким обра- 
зом можно разработать собственный анализатор и добавить его в реестр. 


Интерфейс обработчика ЗАХ2 

После завершения выбора анализатора следует запрограммировать пакет обработ- 
чиков, реализующих захват потока событий анализатора, относящихся преиму- 
щественно к ЗАХ-модулям. Модуль ХМЁ: : ЗАХ специфицирует события и их свой- 
ства во всех подробностях и в целом. В результате обеспечивается контроль над 
обработчиком, благодаря чему обеспечивается полное соответствие АРІ. 

Типы поддерживаемых обработчиков событий делятся, образуя несколько 
групп. Знакомые нам типы включают обработчики содержимого, в том числе 
предназначенные для элементов и общей информации документа, распознавате- 
ли объекта и лексические обработчики, которые оперируют секциями СПАТА и 
комментариями. ОТО-обработчики и обработчики объявлений следят за всем 
находящимся вне элемента документа, включая элементы и объявление объек- 
тов. Модуль ХМ: : ЗАХ добавляет новую группу — обработчики ошибок, перехва- 
тывающие и обрабатывающие любые исключительные ситуации, которые могут 
иметь место в процессе разбора. 

Новый важный аспект в этом классе анализаторов состоит в том, что они рас- 
познают пространства имен, Этот процесс — одно из новшеств, привносимое ЅАХ2. 
Ранее анализаторы обрабатывали уточненные имена как одно целое: комбинация 
префикса пространства имен и локального имени. Теперь можно разграничить 
пространства имен, проследить, где начинается.и заканчивается его область дей- 
ствия, благодаря чему возникают дополнительные возможности. 


Обработчики событий содержимого 


А теперь сосредоточим внимание на содержимом документа, наиболее вероятно, что 
именно эти обработчики будут реализованы в программе обработки ЗАХ. Отметим 
полезное дополнение в виде ссылки указателя документа, которое обеспечивает об- 
работчику специальное «окно» в действиях анализатора. К новым свойствам в этом 
случае можно отнести поддержку пространства имен. Ниже перечислены соответ- 
ствующие обработчики событий: 


• зе Чоситей& Тосафог ( /осаїо” ): вызывается в начале процесса анали- 
за, анализатор использует этот метод для указания обработчику источника 
поступления событии. Параметр 1осаёог —ссылка на хэш-данные со сле- 
дующими свойствами: 


• РиБ11СТО: общедоступный идентификатор текущего объекта, обрабаты- 
ваемого анализатором; 


• буѕіетїр: системный идентификатор текущего объекта, обрабатывае- 
мого анализатором; 
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. 1пемитЬег: номер строки текущего объекта, обрабатываемого анали- 
затором; 


• Со|1итпМимьег: последняя позиция в строке, обрабатываемой анализа- 
тором в настоящий момент времени; 


* хэш-данные непрерывно обновляются последней информацией. Если обра- 
ботчику не подходят передаваемые данные, и принимается решение о завер- 
шении работы, может быть выполнена проверка указателя с генерированием 
для пользователя значимого сообщения о том, где именно в документе-ис- 
точнике была обнаружена ошибка. Для передачи указателя не требуется 
ЗАХ-анализатор, хотя его присутствие было бы желательным. Следует убе- 
диться в наличии указателя до того, как вы попытаетесь получить к нему 
доступ. Не пытайтесь использовать указатель где-либо, кроме как внутри 
обработчика событий, иначе вы получите непредсказуемый результат; 


• Зап аоситепі ( аоситеи! ): эта программа-обработчик вызывается не- 
посредственно после метода ѕеї аоситепі |осафог (), как только начался 
разбор документа. Параметр доситеп і — это пустая ссылка, поскольку это- 
му событию не присущи свойства; 


• епа аоситепё ( доситепї ): последний вызываемый метод обработчика. 
Если обработчик достиг конца потока входных данных или встретил ошиб- 
ку и завершил работу, он посылает сообшение об этом событии. Возвра- 
щенное значение для этого метода используется аналогично значению, 
которое возвращается с применением метода раг ѕе () обработчика. Снова 
параметр Фоситепї пуст; 


• біагі е\1етепї( е/етепї ): везде, где анализатор встречает новый на- 
чальный тег элемента, он вызывает этот метод. Параметр еі емел { — это хэш- 
данные, содержащие свойства элемента, включая: 


• Мате: строка, содержащая имя элемента, включая его префикс простран- 
ства имен; - 


. Аїїгібиёеѕ: хэш-данные атрибутов, в которых каждый ключ кодирует- 
ся {Матезрасе (К ГосаИМате. Значение каждого элемента в хэше — это 
хэш-данные свойств атрибута; 


• Матезрасе!КТ: пространство имен элемента; 
• Рге?іх: префиксная часть уточненного имени; 
• Госа1Мате: локальная часть уточненного имени; 
Свойства атрибутов включают: 
* Мате: уточненное имя (префикс +локальная часть); 
. Ма1ие; значение атрибута, нормализованное (удалены пробелы в начале 
и в конце); 
• Матезрасе ОВГ: источник пространства имен. 
• Рге?іх: префиксная часть уточненного имени. 
 ГосаПМате: локальная часть уточненного имени. 


Свойства МатезрасеикТ, ГосаПМате и Ргейх задаются только в случае, 
если анализатор поддерживает пространства имен. 
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епа е\етепї( е/етеиї ): в самом конце обрабатывается содержимое, и 
конечный тег элемента передается в точку, из которой анализатор вызвал 
этот метод. Он вызывается и для пустых элементов. Параметр е/етеи! - 
это хэш-данные, содержащие следующие свойства: 


• Мате: строка, содержащая имя элемента, включая его префикс простран- 
ства имен; 


• МатезрасеЦцВТ: пространство имен элемента; 
• Рге?іх: префиксная часть уточненного имени; 
• Госа1Мамте: локальная часть уточненного имени; 


Свойства Матезрасе ВТ, ГосаП\ате и Рге#іх задаются только в случае, если 
анализатор поддерживает пространства имен; 


сһагасїегѕ ( сЛағасіегѕ ): анализатор вызывает этот метод всякий раз, 
когда находит участок простого текста с символьными данными. Он может 
разбить этот участок на фрагменты и передавать каждый из них по отдель- 
ности, однако эти фрагменты всегда должны передаваться в том же порядке, 
в котором они считывались. При рассмотрении каждой отдельной части весь 
текст должен поступать из одного и того же объекта-источника. Параметр 
сһағасіерѕ— это хэш-данные, содержащие одно свойство— раѓа, которое 
является строкой, содержащей символы из документа; 


івпогаб1е мћі іеѕрасе( слағасіегѕ ): используется для того, чтобы опи- 
сать символы пробела, появляющиеся в тех местах, гле описание модели со- 
держимого объекта специально не предусматривает символьных данных. Дру- 
гими словами, символы новой строки, которые часто используются, чтобы 
сделать ХМІ -код удобочитаемым посредством расположения элементов на 
некотором расстоянии один от другого, могут игнорироваться, поскольку 
на самом деле не определяют содержимое документа. Анализатор может со- 
общить, игнорируется ли пробел, только получив сведения из объявления 
ОТЬ, ион будет его игнорировать, только если поддерживает проверку дос- 
товерности. Параметр сйағасіегѕ — это хэш-данные, содержащие одно свой- 
ство, Оайа, которое включает символы пробела из документа; 


Ѕїагі рге#іх тарріпе( тарриг ): этот метод вызывается в случае, если 
анализатор обнаруживает пространство имен, входящее в область опреде- 
ления. Анализаторы, которые не поддерживают пространства имен, пропус- 
кают это событие, но элемент и имена атрибутов, тем не менее, содержат 
префиксы пространства имен. Это событие всегда происходит до начала эле- 
мента, который входит в область действия. Параметр тарріп= — это хэш- 
данные со следующими свойствами: 


• Рге?іх: префикс пространства имен; 
. Матезрасе ЕВГ: ссылка ОЕ, в которая преобразуется префикс; 


епа _ргетіх_тарріпв( тарртпЕ ): этот метод вызывается, когда простран- 
ство имен закрывается. Здесь параметр тарріпе — это хэш-данные со следу- 
ЮЩИМ СВОЙСТВОМ: 


• Рге?іх: префикс пространства имен. 
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· Нужно обеспечить появление этого события после события конечного элемен- 
та для элемента, в котором объявлена область действия; 


.  ргосеѕѕіпе іпѕігисііоп( рі ): эта программа обрабатывает события ко- 
манд обработки из анализатора, включая те, которые найдены вне элемента 
документа. Параметр рі — это хэш-данные со следующими свойствами: 


• Тагре{: назначение команд обработки; 
• "Раға: данные команды (или ипдЕЁ, если данных нет); 


. 5ЅКкірреа епё1фу ( еишу ): анализаторы, не проверяющие достоверность, 
могут пропускать сущности, вместо того чтобы анализировать их. Напри- 
мер, если они не обнаружили объявление, они могут просто проигнориро- 
вать сущность вместо того, чтобы отобразить сообщение об ошибке. Этот 
метод предоставляет обработчику возможность произвести какие-либо дей- 
ствия по отношению к сущности и, возможно, даже реализовать свою схему 
разрешения. Если анализатор пропускает сущности, в его распоряжении 
окажутся следующие возможности: 


. обработать внешние параметризованные сущности (см. ссылку Ийр:// 
хті.ого/ѕах/еаїѓигеѕ/ехіегпа!і-рагатеќег-егїійеѕ); 


.. Обработать внешние общие сущности (см. ссылку Пїр://хті.огод/ѕах/ 
їеаїџгеѕ/ехіета!-депега!-епійеѕ); 


· (ВХМЕ свойства представлены в виде ОКІ-ссылок, которые обычно могут су- 
шествовать или нет. Смотрите главу 10 для получения дополнительных объясне- 
ний по поводу программы-фильтра.) Параметр елё7 ѓу то хэш-данные со сле- 
дующим свойством: 


• Мате: имя пропущенной сущности. Если это параметр сущности, то к име- 
ни будет присоединяться символ процента (%). 


Распознаватель сущностей 


По умолчанию ХМГ-анализаторы разрешают внешние объектные ссылки, при- 
чем ваша программа может даже не знать об их существовании. Иногда необхо- 
димо переопределить это поведение. Например, у вас может быть особый способ 
разрешения общедоступных идентификаторов или объектов, которые являются 
объектами в базе данных. Какова бы ни была причина, если вы реализуете этот 
обработчик, анализатор запустит его до того, как попытается разрешить сущность 
самостоятельно. Р 

Аргументе геѕо1уе епііїу () — это хэш- данные сдвумя свойствами: Рир1ісІр — 
общедоступный идентификатор объекта и Зуз+етТВ — специфический для систе- 
мы адрес, предполагающий идентичность, например, путь в файловой системе или 
ОВКІ-ссылку. Если общедоступный идентификатор определен как ипаеЁ, то пере- 
дача не выполняется, но системный идентификатор передается всегда. 


Лексический обработчик событий 


Реализация этой группы событий не обязательна. Возможно, вам не понадобится 
рассматривать эти события, поэтому не все анализаторы реализуют их передачу. 
Однако несколько таких событий будут иметь место. Если потребуется дублиро- 
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вать исходный ХМГ-источник вплоть до комментариев и секций СРАТА, то по- 
требуется анализатор, который поддерживает эти обработчики событий. 


Они включают: 


ѕќатї аға()иепа аїа() — дляразметки границопределениягипа документа; 

ѕіагі епііу () иепа епїї 1у() —для очерчивания области анализируе- 
мой ссылки объекта; 

ѕіагї саӢаѓа() и епа сааѓа() для описания области определения сек- 
ции СРАТА; 

соплей () — лексические комментарии, которые в противном случае будут 
игнорироваться анализатором. 


Обработчики событий ошибок 

и перехват исключительных ситуаций 

Модуль ХМЕ: : ЗАХ позволяет настраивать обработку ошибок для этой группы об- 
работчиков. Каждый обработчик принимает один аргумент, который называется 
исключением (исключительной ситуацией) и предназначен для подробного опи- 
сания ошибок. Отдельно вызванный анализатор представляет серьезность ошиб- 
ки в соответствии с \!/ЗС-рекомендациями. Существует три типа обработчиков: 


• магп1пЕ() : это наиболее простые обработчики исключений. Их примене- 


ние означает, ошибка не столь серьезна, чтобы остановить процесс разбора. 
Например, Ш-ссылка без согласования ІШ (идентификатор) вызовет ото- 
бражение предупреждения, но позволит анализатору продолжить процесс 
разбора. Если этот обработчик не реализован, анализатор будет игнориро- 
вать исключительную ситуацию и продолжать работу; 


еггог() : подобный вид ошибки считается серьезным, но исправимым. 
К этой категории относится ошибка, связанная с нарушением достоверно- 
сти. Анализатор продолжит разбор, генерируя события, за исключением 
того, что приложение реализует решение о выходе из системы. При отсут- 
ствии соответствующего обработчика, как правило, анализатор продолжа- 
ет процесс разбора; 


аа! еггог(): неисправимая ошибка может вызвать аварийное заверше- 
ние работы анализатора. Анализатор не обязан продолжать работу и может 
лишь вывести дополнительные сообщения об ошибке. Исключением может 
быть синтаксическая ошибка, которая делает документ не пригодным для пре- 
образования в ХМГ-код, или в этом качестве может выступать объект, кото- 
рый нельзя разобрать. В любом случае этот пример демонстрирует наивыс- 
ший уровень оповещения об ошибке, обеспечиваемый в модуле ХМЕ : : $АХ. 


В соответствии с ХМІ -спецификацией предполагается, что совместимые анали- 
заторы прекращают работу при наличии ошибок любого рода, связанных с некор- 
ректностью преобразования или недостоверностью. В Рей ЅАХ в этом случае вы- 
зывается метод 9 1е (). Однако это еще не все. Даже после прекращения сеанса работы 
анализатора можно возобновить ее снова. При этом используется метод еуа1 {}: 


еуа{ $рагзег->рагзе( Фиг1 ) }; 
1 $е ) { 


# Обработка ошибок... 
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Свойства $@ уагі аЫе — те самые хэш-данные свойств, которые объединяют 
всю информацию о причинах сбоя процесса разбора. 
Эти свойства включают следующее: 


ы Меѕѕаре: текстовое описание происшедшего события; 


* Со1итпМиутрег: номер символа в строке, в которой произошла ошибка в про- 
цессе синтаксического разбора; 


• і іпећитбег: номер строки, в которой встретилась ошибка, если во время син- 
таксического разбора было сгенерировано исключение; 


• РиБ1 1с10: общедоступный идентификатор объекта, в котором произошла 
ошибка, связанная с процессом синтаксического разбора; 


• Зуз{етТО: системный идентификатор, указывающий на объект, нарушаю- 
щий нормальную работу в случае происшедшей в процессе разбора ошибки. 


Не все исключения указывают на причину отказа в работе. Иногда анализатор 
вызывает исключение из-за неправильной настройки СВОЙСТВ. 


ИнтерфейсХМі::ЅАХЅАХ2 


После того как был разработан пакет обработчиков, необходимо создать экземп- 
ляр анализатора, установить его свойства и запустить его на основе данных из ХМІ- 
источника. В этом разделе обсуждается унифицированный интерфейс для анали- 
заторов ХМІ: : ЗАХ. 

Метод рагѕе(), которому передаются сведения о процессе разбора, получает 
хэш-данные опций в качестве аргументов. Можно назначить обработчики, устано- 
вить свойства и определить источник анализируемых данных. Например, следую- 
щие наборы строк устанавливает как пакет обработчиков, так и документ источ- 
ника для разбора: 


Ѕрагзег->рагѕе( НапоПег => $һапд1ег, 
болое => { ЅуѕїетІа => "дафа.хм1" }); 

Свойство Напа1ег устанавливает общий набор обработчиков, который будет 
использоваться по умолчанию. Однако каждый класс обработчиков имеет свою 
область применения, которая будет проверяться до вызова метода Нап ег. Эти 
параметры установки включают: СопіепіНапа1етг, ОТОНапаіег, Еп&1{уКезо1уег 
и ЕтогНап ег. Все эти параметры установки не обязательны. Если обработ- 
чик не назначен, анализатор будет просто игнорировать события и обрабатывать 
ошибки по-своему. 

Параметр Зоигсе — это хэш-данные, которые используются анализатором для 
хранения всей информации о входном ХМГ-документе. Он имеет следующие 
свойства: 


• спагаскег$&геам: этот вид дескриптора файла применяется в Ре! вер- 
сии 5.7.2 и выше, использующих Рег!ТО. При этом не выполняются преобра- 
зования кодировки. Используйте функцию геаа () для вычисления количе- 
ства символов или функцию ѕуѕгеаа() для определения количества байтов; 


• буѓеЅітеат: это свойство определяет поток считываемых байтов. Если ус- 
тановлено СћһагасѓегЅігеат, описываемое свойство не применяется. Одна- 
ко оно заменяет Ѕуѕіет!іа. Наряду с этим свойством должно быть установ- 
лено Епсоа1 пб; 
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* рир1 іса: Это свойство не обязательно для применения, но если приложе- 
ние использует общедоступный идентификатор, он хранится в Ри іс 14; 


* суѕіетІа: в этой строке определяется специфическое для системы местопо- 
ложение документа, например, ОКІ или путь в файловой системе. Даже если 
источник является потоком данных или потоком байтов, этот параметр все 
равно полезен, так как может использоваться как указатель смещение ссы- 
лок внешних объектов; | 


• епсоаі пе: как известно, здесь хранится кодировка символов. 


Любые другие опции, которые необходимо. установить, находятся в наборе 
свойств, определенном для ЗАХ2. Например, можно указать анализатору, что необ- 
ходимо произвести какую-либо особую обработку пространства имен. Один из спо- 
собов установки свойств состоит в определении свойства Ееаиге$ в хэш-данных 
опций, установленных для метода рагзе (). Другой способ состоит в использова- 
нии метода ѕеї #еаїиге(). Например, рассмотрим, каким образом можно вклю- 
чить в проверяющий анализатор контроль достоверности, используя оба метода: 


фрагѕег->рагѕе( Ғеаїигеѕ => { ‘Веер: //хті.огр/ѕах/ргорегііеѕ/ча\ідаїе' => 1} ); 

фрагѕег->ѕеї їеаїиге( 'һітр: //хт1.огв/ѕах/ргорегіїеѕ/уа1іааїе', 1 ); 

Полный перечень свойств, определенных для ЅАХ2, смотрите в документации 
на \еб-узле И&р://зах.зоигсеюгде.пеУарос/ога/хтИзах/расКаде-зититагу.Нёт!. Мож- 
но также определить с свойства, если у вашего анализатора есть специальные ат- 
рибуты, в противном случае это сделать нельзя. Чтобы узнать, какие свойства под- 
держивает ваш анализатор, имейте в виду, что метод бе їеаїигеѕ() возвращает 
соответствующий список, а веі _Теа*иге () с указанным параметром имени сооб- 
щает параметры настройки специального свойства. 


Пример с драйвером 


При создании простого ЗАХ-анализатора, большая часть работы производится 
базовым классом ХМ : : $АХ : :Вазе, Все что необходимо сделать, — создать подкласс 
этого объекта и переопределить все, что он не производит по умолчанию. Это не 
только удобно, но и также приводит к созданию более надежной и безопасной про- 
граммы, чем если бы ее пытались написать с самого начала. Например, проверка 
факта реализации необходимого обработчика в данном пакете обработчиков, вы- 
полняется автоматически. и | 

Следующий пример показывает, насколько легко создать анализатор, который 
работает с модулем ХМЕ: : ЗАХ. Это драйвер, похожий на тот, который рассматри- 
вался в разделе «Драйверы для не ХМГ-источников», кроме того, что вместо пре- 
образования Ехсе]-документа в ХМГ, он читает из системного журнала \еб-сер- 
вера. Анализатор транслирует из системного журнала строку, похожую на эту: 


10.16.251.137 - - [26/Маг/2000:20:30:52 -0800] "СЕТ /1п4аех.НЕт1 НТТР/1.0" 
200 16171 

в такой фрагмент ХМГ-кода: 

<епсгу> 


<цо>10.16.251.137<1р> 
<даёе>26/Маг/2000:20:30:52 -0800<0абсе> 
<иеорСЕТ /арасһе-тод115ї .һіті НТТР/1.09<гец> 
<ѕіас>200<ѕёас> 
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<э17е>6ТИЛж<те> 


В листинге 5.8 представлен драйвер для меб-журналов. Первая подпрограмма в 
пакете — это методрагѕе(). Обычноненужносоздаватьсобственный методраг$е(), 
поскольку этоделает базовый класс, но предположим, что требуется ввести некото- 
рый ХМГ-код, который не включает код драйвера. Поэтому заменим эту програм- 
мусвоей, специально созданной для обработки системных журналов \еб-сервера. 


Листинг 5.8. ЅАХ-драйвер ммеб-журнала 
раскаде Іооркіуег; 
гедиіге 5.005 62; 
осе $61; 
ие ХМЬ: : 5АХ: :Ваѕе; 
сиг @15А = ('ХМі::5АХ::Ваѕе'); 
оше $МЕКЅІОМ = '0.01'; 
эло рагѕе { 
ту Фѕеі? = зн Е; 
пу $Е11е = $ПіЁ; 
і#( ореп( Е, Фе )) { 
$5е1+->5ИРЕК: : ѕіагї е\1етепі({ Мите => 
‘ зегуег-1о4’ }); 
мһіле( <Р> ) { 
фѕеії-> ргосеѕѕ Ііпе( $_}; 


сІоѕе Б; 
$е1+->50РЕК: :епа е\етепї ({ Мате => 
‘ѕегмег-І09' }); 


зуб _ргосеѕѕ те { 
ту Фѕеії = зп МЕ; 
ту $1іпе = ѕһіЁї; 
М Ф$іпе =- 


а о ) { 


} 
1; 


Ур, $4а+е, Фгеа, Фѕіаї, 55іғе ) = ($1, $2, $3, $4, $5 ); 


$5е1Е->50РЕК: :ѕіагі е1етепё({ Мите => 'епїгу' }); 
$ѕеіғ->80РЕВ::5їагі еіетепі({ Мате => 'ір' }); 
$5е1#->50РЕК: :сһагасїегѕ({ Ба => бір }); 
$зе!->ЗУРЕВ::епа еіетеп{ Мыте => 'ір' }); 
$5е11->50РЕВ: :ѕїагї е1іетепї({ Мате => 'аїе' }); 
$зеН->5ЧУРЕВ::спага‹{егз({ Рав => Заае }); 
фѕе1?->50РЕК: :епа е1етепї({ Мате => '4а{е'’ }); 
$ѕе1#->5ЏРЕК: : ${агЕ_е1етепе ({ Мате => 'геа’ }); 
$зе!->50РЕВ::спага‹{егз({ Баа => $гед }); 
$5е1+->5РЕВ: :епд е1етепї({ Мате => ‘геа’ }); 
$5е1+->5 РЕК; : $Фаг&_е1етепт({ Мате => 'ѕіаї’' }); 
$зеН->5УРЕВ::спагас{ег$з({ Баа => $га? }); 
фѕе1#?- >5Џ0РЕВ: :епа е\етепї ({ Мате => 'ѕѓаї' }); 
$ѕеі->50РЕВ::ѕїаі еіетеп{ №те => '512е' }); 
$ѕеіѓ->80РЕВ::сһагасіегѕ({ баіа => Зе }); 
фѕе1?->50РЕК: :еп9_е1етел{ ({ №те => '512е' }); 
фѕе1?- >50РЕК: :епа е1етепе({ Мите => 'епїігу' }); 


Посколькужер-журналы построчноориентированы (одинэлементвкаждойстро- 
ке), имеет смысл написать подпрограмму, обрабатывающую отдельные строки, — 
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ргосе5$_11пе(). После этого останется только разбить элемент меб-журнала на 
составляющие элементы и оформить их в виде ХМІ -элементов. Методрагзе () про- 
сто разобьет документ на отдельные строки и передаст их одну за другой программе- 
обработчику строки. 

Отметим, что в пакете обработчиков обработчики событий непосредственно не 
вызываются. Точнее, данные передаются в базовый класс с применением программ, 
поскольку не нужно проверять, перехватывается ли этот тип событий пакетом об- 
работчиков. С другой стороны, их поиск осуществляется в базовом классе, вслед- 
ствие чего облегчаются задачи пользователей. 

Теперь проверим анализатор в работе. Предположим, что этот модуль уже ус- 
тановлен (процесс установки анализатора ХМЕ : : ЗАХ рассматривается в следующем 
разделе книги), поэтому достаточно просто написать программу, которая его ис- 
пользует. Код из листинга 5.9 показывает, каким образом можно создать пакет об- 
работчиков и использовать его в имеющемся анализаторе. 


Листинг5.9. Программа, проверяющая работоспособность ЗАХ-драйвера 


056 ХМЕ: :$АХ: : РагзегРасфогу; 

и5е Говргіуег; 

гу $һапа1ег = пем МуНапаіег; 

ту Ѕрагѕег = ХМЕ: : ЅАХ: : РагѕегҒасіогу->рагѕег( Нап ег => Ѕһћапаіег ); 
фрагзег->рагзе( ИМЕ @АВбУ ); 


раскаде МуНапаег; 


# Инициализация объекта с опциями. 

# 

зиб пем { 

пу $с1а55 = БһіЁғЕ; 
пу Ѕѕе1# = {@ }; 
геїигп Ыеѕѕ( $5еі#, 5сіаѕѕ ); 
} 
зиб ѕїагі еіетепї { 
_ ту 5зеМ = ѕһі?ї; 
ту Фааїа = ѕһіїї; 
ргіпїі "<", $даа->{Мате}, ">"; 
ргіпі "\п" 11( $азма->{Мате} ед 'епфгу' ); 
ргіпі "\п" 1#( $даа->{Мате} ед ‘'зегуег-109’ ); 

} 

зиб епа еіетепї { 

ту ЭзеМ = $11; 

ту $дата = ѕһіғі; 

ргіпі "<", $даа->{Мате}, ">\п"; 
} 
ѕир сһагасїегѕ { 

ту ЭЗзе! = ѕһіёі; 

ту Заа{а = $п Е; 

ргіпі $ааїа->{раїа}; 

} 

Модуль ХМІ: :ЅАХ: : РагѕегГасіогу использовался для того, чтобы показать, 
как может выбираться зарегистрированный анализатор. При необходимости мож- 
но определить атрибуты анализатора так, чтобы последующие запросы могли его 
выбирать, используя их свойства, а не имена. 

Пакет обработчиков не такой уж сложный. В его задачи входит преобразова- 
ние событий в поток символов ХМГ-кода. Каждый обработчик получает ссылку 
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хэш-данных в качестве аргумента, посредством которого можно получить дос- 
туп ко всем свойствам объекта по соответствующему ключу. Имя элемента, на- 
пример, хранится с хэш-ключем М те. Как ожидалось, это практически все, что 
нужно было сделать. 


Установка пользовательского анализатора 


Освещение возможностей модуля Хм | : : $ АХ былобы неполным бездемонстрации 
того, как создать установочный пакет, который автоматически добавляет анализа- 
тор в реестр. Добавление анализатора легко производится с помощью утилиты 
2х5. Хотя первоначально эта утилита предназначалась для облегчения создания 
С-расширений Рег|, она неоценима и в других ситуациях. 

Используем ее для создания аналога установочной программы модуля, загру- 
жаемых из сети СРАМ. Новый проект начнем со следующей команды: 


һ2хѕ= -АХ -п 1ов0гімег 


Утилита п 2 хѕ автоматически создает каталог, который называется ГогОпуег 
и включает несколько файлов: 


Ы Товн Туе „рт: заглушка модуля, готового к наполнению подпрограммами; 


. Макейе.РГ: Рей-программа, которая формирует объектный файл для уста- 
новки модуля; 


*  1651.р[: заглушка, вместо которой может устанавливаться тестовая програм- 
ма, предназначенная для проверки успешности процесса установки; 


• Сйапзез, МАМІҒЕЅТ: остальные файлы, которые помогают при инсталляции 
и предоставляют пользователям необходимую информацию. 


Установленному модулю [ор г1уег .рм не требуется дополнительный код для 
утилиты һ2хѕ. Нужнатолько переменная $УЕК$ТОМ, поскольку 2х5 излишне «раз- 
борчив» по отношению к подобной информации. 

Как известно из процесса установки модулей, полученных из сети СРАМ, пер- 
вое, что делается при открытии архива установочной программы, — выполняется 
команда рег] МаКе{11е.РМ. В результате формируется файл, который называется 
Маке!е, и конфигурируется программа установки для системы. Затем можно за- 
пустить объектный файл и провести установку, в результате чего модуль будет 
загружен в нужное место. 

Любое отклонение от поведения по умолчанию установочной программы дол- 
жно быть запрограммировано ВМакее.РМ. Первоначально эта программа име- 
ет следующий вид: 


ие Ех+И%11$: : МакеМакег; 
Мг ітеМаке?і1е ( 


'МАМЕ" => 'од0гімег', # Имя модуля. 
'МЕК$ТОМ_ЕКОМ' => 'Еор0гїіуег, рт’, # Поиск версии. 
); 
Аргумент МгіќеМакеЕШеО — это хэш-данные свойств модуля, используемые 


при формировании файла Маке?і1е. Можно включить дополнительные свойства, 
чтобы заставить установочную программу выполнить более сложные действия, чем 
обычное копирование модуля в систему. Добавим в анализатор следующую строку: 


РНЕРЕО РМ => { 'Хмі::5АХ' => 0 } 
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В результате в процессе установки инициируется проверка с целью проверки 
наличия в системе модуля ХМі : : ЗАХ. Если нет, установка прекращается и выдает- 
ся сообщение об ошибке. Невозможно установить анализатор до тех пор, пока не 
создана среда, обеспечивающая его работу. 


В Маке#і1е , РМтакже необходимо добавить следующую подпрограмму: 


6 МЕ :1п$+а11 { 
раскаде му; 
ПУ $5сг1ре = $И1{Е->50РЕК: :іпѕїа11(@ ); 
$$сг1рё =~ $/1п51а11 :: (.*)$/1п5%а11 :: 
1 1151а11_ зах агімег/т; 
ѕсгірі .=` <<"МЫТАШ"; 
шпэба!1 зах дрімег : 
\1\@\$(РЕКЁ) -МХМЕ: : АХ е 
"ХМ: : ЅАХ->айвд рагѕег (9 (4$ (МАМЕ) ) ) ->ѕауе рагѕегѕ( ) " 
АІ, | 


тебоий $5сгірї; 


} 


В этом примере в список, который поддерживает модульхМЕ: : ЗАХ, добавляет- 


ся анализатор. Теперь можно приступить к процессу непосредственной установки 
модуля. | 


Обработка 
‘деревьев 


В предыдущих главах излагались методы обработки потоков, теперь же приступим 
к рассмотрению другого стиля обращения с ХМГ-данными. Вместо того чтобы раз- 
бирать фрагментированный документ с помощью ХМГ-анализатора, можно загру- 
зить его в память, азатем выполнить все необходимые действия. В результате зна- 
чительно облегчается сам процесс обработки, хотя реализация подобного подхода 
на практике требует наличия большего количества памяти, а также приводит к уве- 
личению загрузки центрального процессора. 

В главе анализируется методика, заключающаяся в использовании устойчи- 
вых ХМГ-объектов. Она также известна под названием обработка деревьев (1тее 
ргосеѕѕіпе). В этом случае просматривается набор различных модулей и страте- 
гий, создаются ХМІ -деревья и определяются методы доступа к ним, включая 
стандартную объектную модель документа (Ооситепі ОБес Моде, РОМ). Так- 
же рассматриваются реализация быстрого доступа к внутренним разделам доку- 
мента с помощью ХРа{! и методы эффективной обработки деревьев. 


ХМ |-деревья 


Каждый ХМГ-документ можно рассматривать как набор объектов данных, обра- 
зующих ациклическую структуру, которая называется деревом. Каждый объект, 
или узел, является небольшой частью документа, и представляет собой элемент, 
фрагмент текста или инструкцию по обработке. Один из узлов, называемый кор- 
нем, связан с другими узлами, которые ссылаются на следующие узлы, ит. д. вплоть 
до изолированных узлов. Если изобразить эту структуру в виде графа, получим 
картинку в виде дерева. 

Использование деревьев для представления ХМ 1 -документов весьма полезно. 
В силуацикличной природы дерева для его обработки можно использовать после- 
довательные методы доступа, не опасаясь «увязнуть» в бесконечном цикле. Как и 
в случае с деревом каталогов файловой системы, расположение любого узла мож- 
но представить в виде простой сокращенной записи. Любую ветвь дерева можно 
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выделить, сформировав меньшее по размеру дерево. Поэтому исходный объект по- 
добного типа представляет собой объединение меньших по размеру деревьев, свя- 
занных в корневом узле. В результате вся информация хранится в одном месте, а 
поиск можно осуществлять так же, как в базе данных. 

Для любого программиста возможность представления данных в виде разветв- 
ленной структуры обеспечивает упрощение решаемых задач. При обработке пото- 
ков программе-анализатору приходится запоминать множество текущих деталей, 
используемых для построения структур более высокого уровня или вывода ин- 
формации на печать. При работе со сложным документом этот процесс может при- 
вести к путанице, а попытка объединить фрагменты информации, относящиеся к 
различным частям документа, — к излишнему перенапряжению. Если же работать . 
с документом, представленным в виде дерева, вся информация может быть легко 
просмотрена. При этом потребуется лишь указать в тексте программы местона- 
хождение нужного узла, и анализатор выберет требуемую информацию. 

К сожалению, ничего не дается даром. За удобство доступа к любому месту 
документа придется расплачиваться. Во-первых, процесс построения дерева за- 
нимает много времени и сопровождается частыми обращениями к центральному 
процессору. Количество выполняемых операций растет в случае применения 
объектно-ориентированных методов. Также приходится расплачиваться допол- 
нительным объемом памяти, поскольку при распределении объектов в дереве 
требуется резервировать место. При работе с большим документом (например, со- 
держащим несколько миллионов узлов), это может привести к появлению допол- 
нительных проблем. Тем не менее, применение деревьев оправдано (особенно в 
случае применения оптимизированного кода). 

При описании деревьев и взаимоотношения часто упоминаются генеалоги- 
ческие термины. Узел, содержащий ответвления, называютродительским (рағепі) 
по отношению к ветвям, которые в свою очередь называют дочерними (сйИа) уз- 
лами по отношению к содержащему их узлу. Соответственно термины потомок 
(Чезсепаат, предок (апсеѕіор) и близнец (51№Пп=) близки к своим традиционным 
значениям. Таким образом, два узла-близнеца имеют один родительский узел, а 
корневой узел является предком для всех узлов в дереве. 

Существует несколько разновидностей деревьев, причем выбор конкретной 
реализации зависит от решаемой задачи. Благодаря этому реализуются различ- 
ные подходы к построению модели документа. Например, объектную ссылку мож- 
но поместить в узел, отделенный от текста, или оставить ее в исходном месте. Важ- 
но уделить внимание схеме построения каждого отдельного модуля. В табл. 6.1 
приведены стандартные варианты выбора разновидностей узлов. 


Таблица 6.1 Определения стандартных разновидностей узлов 


Тип Свойства 

Элемент Имена, атрибуты, ссылки на дочерние узлы 

Пространство имен Префикс, ОВІ 

Символьные данные Строка символов 

Инструкции по обработке Целевой объект, данные 

Комментарии Символьная строка 

Секция СРАТА Строка символов 

Объектная ссылка Имя, текст замены (системный идентификатор идентификатор 


и/или общедоступный идентификатор) 
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В дополнение к этому набору в некоторых реализациях определяются разно- 
видности узлов для объявлений ОТО, позволяющие программисту получить дос- 
туп к определениям элементов, объектов, записей и атрибутов. Могут существо- 
вать узлы для ХМГ-объявлений и объявлений типов документов. 


Модуль ХМІ::Ѕітріе 


Простейшую модель дерева можно найти в модуле ХМЬ: : $1тр1е, разработанном 
Грантом Мак Лином (Отапі МсГеап). Этот модуль предназначен для выполнения 
операций по обработке, чтению и сохранению файлов данных. Программисту не 
следует углубляться в тонкости языка ХМИ. и работы анализаторов, — достаточно 
просто знать, каким образом осуществляется доступ к различным структурам, ис- 
пользуемым для хранения документов (например, к массивам или хэш-объектам). 
В листинге 6.1 описывается простой файл данных, который может использоваться 
для хранения информации. 


Листингб. 1. Файл данных программы 


<ргеҒегепсеѕ> 
<Ғопе го1е= "деҒації"> 
<пате>Тітеѕ Мет Комап< /паме> 
<517е>14</517е> 
</ЕпЕ> 
<міпаӢои> 
<ћеїрһї>352</һеїівһі> 
<м1іаїћ>417</иіаїћ> 
<10сх>100</10сх> 
<10су>120</10су> 
</міпаом> 
</ргеҒегепсеѕ> 


С помощью модуля ХМ: : 5ітр1е можно осуществлять доступ к информации 
из файла данных. В листинге 6.2 демонстрируется, каким образом можно полу- 
чить информацию об автоматически выбираемом шрифте. 


Листинг 6.2. Программа, применяемая для выборки сведений о шрифтах 


ие ХМ: : 5ітр1е; 

пу $$1тр1е = ХМІ : : $1мр1е->пеи(); # Инициализация объекта. 

пу 5Ехее = $5ітр1е->ХМііп( './даёа.хті' ); # Считывание, 

сохранение документа. 

Тестирование на предмет наличия к доступа к дереву. 

ріп "Тһе озек ргеЁегз бе Еойе " . Ѕікее->{ Ғопі }->{ папе } . "аё" 
бЕгее->{ РойЕ }->{ ѕіле } . " роіпёѕ. \п"; 


Сначала инициализируется объектХМі : : $1тр1е, затем вызывается встроенный · 
метод ХМ [іп () . В результате анализатор возвращает ссылку на корень дерева, ко- 
торый представляет собой иерархическую структуру, состоящую из хэш-объектов. 
Имена элементов являются ключами к хэш-объектам, а их значения — строками 
или ссылками на другие элементы хэш-объектов. Подобная организация обеспе- 
чивает удобный и быстрый доступ к любой части документа. | 

.‚ С целью наглядной демонстрации этой идеи рассмотрим принципы организа- 
ции данных с помощью модуля раѓа: : Оштрег, позволяющего создавать последо- 
вательные структуры данных. Добавьте в конце программы следующие строки: 
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изе Габа: ;ритрег; 
реіпі Рропрег( $6хее ); 
Результат будет следующим: 
бегее = { 

"Ғопі' => { 


“біле! => '14', 

‘паме’ => ‘Тез № Котап', 
"үо1е' => ’деЕай1' 

‘итпдом' => { 

'1осх' => .100', 

'1осу' => *126', 

еіоћё ' => '352', 

"міаєћ' => '417' 


}; 

Переменная $1гее описывает корневой элемент дерева, <ргеѓегепсеѕ>.В хэш- 
объекте доступ к Каждой записи, которая представляет собой ссылку на дочерний 
элемент, < Топ{> и <Мпаом>, осуществляется через ихтипы. Записи передаютссыл- 
ки на хэш-объекты, представляющие третий уровень элементов. В качестве подоб- 
ных объектов в данном случае выступают строки, представляющие текст, который 
находится в реальных элементах файла. Доступ ко всему документу осуществля- 
ется с помощью простой строки, образуемой хэш-ссылками. 

Приведенный пример неслишком сложен. Беспроблемное применение модуля 
ХМЕ: : Зпар!е объясняется тем, что здесь реализованы простейшие возможности 
ХМГ. Обратите внимание на файл данных. Здесь имена элементов-близнецов ни 
разу не повторяются, поскольку хэш-объекты не допускают дублирования. 

Если же возникает ситуация, чреватая появлением совпадающих имен, модуль 
ХМІ: : ЅітріІе предлагает решение. Когда элемент обладает двумя или более дочер- 
ними элементами с одинаковыми именами, используется список подобных имен в 
группе. Соответствующий пример можно найти в листинге 6.3. 


Листингб.3. Более сложная программа, обрабатывающая файлы данных 


<рге?егепсеѕ> 
<Ғопё го1е="сопѕо1е"> 
<517е>9</517е> 
<Ғпаме>Соигіег</Ғлате> 
</ТопЕ> 
<Еопе го1е="беғаџії" > 
<Епате>Тіпеѕ №м Котап</ Ёпаме> 


<517е>14</51ғ7е> 
</Еопё> 
<Ғоп го1е="{1{1е$"> 
<517е>10</517е> 
<Ғпате>Не1уеїіса</паме> 
</Еопё> 
</ргеЕетепсез> 


Здесь задача модуля ХМЁЕ: : паре была усложнена. В одной строке находятся 
три элемента <#опё>, Каким же образом они различаются? Обратите внимание на 


следующую структуру данных: 
Фгее = { 
"топе" => [ 


= 
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"Ғпате' => 'Соиг1ег', 
а => 9" | 
гоіе' => 'сопѕоіе 


А 


{ "Я " = "Тішпеѕ №мл Котеп', 
"біле! => '14', 
'тоје' => 'аеѓғаліё' 
}, 
{ 
і "В ' => 'Неімеііса', 
'512е' => '10', 
тое! => ез! 


}; 

Значение переменной Топ — это ссылка на список хэш-объектов, каждый из 
которых моделирует один из элементов семейства <Ғопі>. Чтобы выбрать необ- 
ходимый шрифт следует осуществить ряд итераций по списку до тех пор, пока не 
будет найден нужный элемент. Благодаря использованию подобного процесса про- 
блема с одинаковыми именами объектов-близнецов разрешается автоматически. 

В последнем файле данных некоторым элементам были назначены новые атри- 
буты. Здесь они являются дочерними по отношению к предшествующим элемен- 
там. Конфликт между именами атрибутов и дочерних элементов возможен, но эта 
проблема решается так же, как и в случае дублирования имен объектов-близнецов 
одного предка. Поэтому подобный подход весьма практичен. 

Мы уже знаем, как направлять ХМГ-документы в поток ввода программы, но 
еще не ознакомлены с операцией записи в файл. Для выполнения этой операции 
модуль ХМЕ : : $1тр1е предлагает метод, предназначенный специально для вывода 
ХМГ-документов, ХМі_Оџї (). Можно, также, изменить существующую структуру 
или создать новый документ изначально, построив структуру данных, как показа- 
но выше, и затем передать ее методу ХМЕ Ои (). 

Исходя из этих соображений, можно прийти к выводу, что модульХмі : : $ ітр1е 
идеально подходит для обработки простых ХМГ-документов; затруднения появ- 
ляются при появлении более сложных элементов разметки. В частности, не могут 
одновременно обрабатываться дочерние элементы и текст (смешанное содержи- 
мое). Различаются только такие типы узлов, как элементы, атрибуты и текст (дру- 
гими словами инструкции по обработке или секции С РАТА). Так как хэш-объекты 
не сохраняют порядок элементов, последовательность может быть нарушена. Если 
ни одна из перечисленных проблем не является актуальной, можете смело вос- 
пользоваться модулем ХМІ. : : эпир!е. В результате оптимизируется решение мно- 
гих задач, сводятся к минимуму недостатки ХМГ-разметки, а также обеспечивает- 
ся удобный доступ к данным. 
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В главе 4 анализатор ХМІ: :Рагзег использовался для генерирования событий, ко- 
торые управляли программами обработки потоков данных. Оказывается, этот ге- 
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нератор событий можно также применять для формирования деревьев! Листинг 6.4 
представляет собой измененную программу считывания установок. Здесь выпол- 
няется вызов ХМГ-анализатора ХМ: :Рагзегс целью проведения анализа и пост- 
роения дерева. 


Листинг 6.4. Использование анализатора ХМ(: :Рагег для построения дерева 


# Инициализация анализатора и считывание файла. 
иѕе ХМЕ: : Рагѕег; 

Зрагзег = пем ХМЕ::Рагзег( ЅіуІе => 'Тгее' ); 
ту Ѕігее = $рагѕег->рагѕе?і1е( зп МЕ ©НЭ ); 


# Выгрузка структуры. 

иѕе раѓа: : ритрег; 

ргіпїі ОСитрег{ Ѕігее ); 

При выполнении кода из листинга 6.4 на базе файла будет получен следующий 
результат: 


бігее = [ 

В р 
ТЕА. А ‘\п' 
оп", [ 
{ тоіе' => оя А 0, А: 
‘5і2е', [ 0 
пате" 0, %, о пб, п’ 
1. 0, и 
"опе", [ 


{ ‘го\е' => ‘еғаџії' }. 0, '\ш', 
"Ғпате', [{}, 0, "Тшеѕ №м Волей" ], 0, '\п', 
'512е', [ са 0, "14' ], 0, '\' 
19205, "\п' 
‘опт, [ 
{ голе" = "Нес" Ну 0; х, 
'512е', [ {}, 0, '10'], 0, '\1', 
'Е "41, 0, 'Неімебіса' ], 0, ‘\п', 


]; 

Эта структура является более сложной, чем та, что была получена в результате 
применения модуля ХМ. : : $ ітр1е. Здесь хранится много дополнительной инфор- 
мации, в том числе типы узлов, их порядок и смешанный текст. Каждый узел пред- 
ставлен одним или двумя объектами списка. Элементы структуры состоят из двух 
объектов: наименования и перечня его содержимого. Текстовые узлы закодирова- 
ны с применением нуля и следующих за ним значений, находящихся в строке. Все 
атрибуты элемента хранятся в хэш-объекте в качестве первого объекта из контек- 
стного списка. Также сохранены служебные символы, которые представляются 
нулем или \п. Так как списки призваны передавать содержимое элементов, поря- 
док узлов сохраняется. Это обстоятельство имеет значение для некоторых ХМІ- 
документов, например, для книгили фильмов, в которых составляющие элементы 
образуют некоторую последовательность. 

В данном случае анализатор ХМІ: : Рагѕег не позволяет выводить ХМГ-доку- 
менты, как в случае с модулем ХМ. : : 5ітр1е . Для получения завершенного уни- 
версального решения потребуется привлечь некоторые объектно-ориентирован- 
ные методы. 
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Модуль ХМ!: :5ітріеОбјесі 


Встроенные типы данных хороши во многих ситуациях, но при усложнении струк- 
туры программы для представления объектов могут понадобиться более изящные 
интерфейсы. Такие процедуры, как проверка типов узлов, поиск последнего до- 
чернего элемента в дереве или замена метода представления данных без одновре- 
менного изменения оставшейся части программы, проще осуществлять с помощью 
объектов. Не удивляйтесь, но количество объектно-ориентированных ХМГ-объек- 
тов не поддается точному прогнозированию. 

Обзор объектных моделей для ХМІ-деревьев начнем с модуляХМЕ : : 5 ітр1е0бјесі, 
разработанного Дэном Брайаном (Рап Вгіап). Здесь используется структура, воз- 
вращаемая анализатором ХМЕ: : Рагѕег, выполняющимся в режиме дерева. При 
этом выполняется перестройка из иерархического списка в иерархию объектов. 
Каждый объект представляет элемент и обеспечивает методы доступа к дочерним 
элементам. Так же как и в случае использования модуля ХМі : : 5 ітр\е, имена эле- 
ментов передаются аргументам методов, что и позволяет получить к ним доступ. 

Рассмотрим, какие же преимущества связаны с применением этого модуля. 
В листинге 6.5 показан простой файл данных, представляющий генеалогическое 
дерево. Сейчас мы напишем программу, выполняющую разбор файла с постро- 
ением объектного дерева, а также обход дерева с целью вывода на печать тексто- 
вого описания. 


Листинг 6.5. Генеалогическое дерево 


<апсеѕітгу> 
<апсеѕїог> <пате>С\1оок е Маврпі?ісепі</пате> 
<сһі1агел> 
<апсеѕїог><пате>б61ітѕћан Се Вгауе< / пате> < /апсезфог> 
<апсеѕіогь<папе>бе1 раг е бігопао</папе></апсеѕіог> 
<апсеѕїог><пате>С1цгко Ше Неа1їћу</пате> 
<сһі1агеп> 
<апсеѕїог><латме>б1иг?? е $1игду</пате></алсезтог> 
<апсеѕїог><паме>б1ир (Те Ѕ5їігапве</пате> 
<сһілагеп> 
<апсеѕіог><пате>В1џив е Іпѕапе</пате> < /апсеѕіог> 
<апсеѕїог><пате>Е1ив (Те ріѕїигбей</пате> </апсеѕїог> 
</сћі1агеп> 
</апсезбог> 
</си11дгеп> 
</апсезбог> 
</сћі1агеп> 
</апсеѕіогь> 
</апсезЕху> 


Текст нашей программы представлен в листинге 6.6. Сначала модуль ХМІ: :Рагзег 
разбирает файл, формируя дерево, потом передает результат конструктору моду- 
лю ХМІ: ; 5ітр1еОбјесї. Затем процедура Бераї () последовательно обходит дере- 
во и рекурсивно выводит текст. Обходя каждый элемент и предполагая, что он 
является предком, программа отображает его имя. Если существуют дочерние эле- 
менты (это можно узнать, проверив, возвращает ли дочерний метод определенное 
значение), программа опускается на нижний уровень дерева с целью выполнения 
соответствуюшей обработки. 
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Листинг 6.6. Программа ХМЕ::ЅітріеОбјесї 


иѕе ХМІ::Рагѕег; 
зе ХМ : : 5 1тр1ебь ест; 


# Разбор файла данных и построение объекта дерева, 
ту 5Е11е = 1 Е @АКСУ; 
ту Эрагѕег = ХМ: :Рагзег->пем( ЕггогСопеехЕ => 2, 56у1е => "Ткее" ); 
пу бЕгее = ХМЕ::51тр1еОбјесї->пем( $%рагѕег->рагѕе?і\е( $111е )); 


# Вывод текстового описания. 
ріп "Му апсеѕігу збагіѕ мае "; б 
реда ( $їгее->сһі1й( 'апсеѕїгу' ) ->сһ1а( ‘апсезфог' ), '' ); 


# Описание поколения предков. 
зоб Беда { 
( Ѕапс, $іпаепї ) =@_; 


# Вывод имени предка. 
реле Ѕіпдепі . Ѕапс->сһ11а( 'пате' ) ->уаше; 


# При наличии потомков выполните рекурсию. 
1Е( Ѕапс->сһі1а( 'сһі1агеп' ) апа Ѕапс->сһі14( 'сһі1агеп' ) - 
>сШ1агеп ) { 


ргіпі " ибо Бедае...\п"; 

пу @сһі1агеп = бапс->сЬ11а( 'сһі1агеп' ) ->с11акеп; 
Ғогеасһ шу Ѕсһі1а ( @сһі1агеп ) { 
редаё ( 51а, %іпаепі . ·' у 


}еїѕе { 
реше "\п"; 
} 


} 


С целью проверки программы запустим ее на выполнение. Отступы в коде по- 
зволяют проиллюстрировать процесс спуска по генеалогическому дереву: 


Му апсезЕху эбакез уп б100к Се Мэсі Ғісепі ућо В 
611т$Пам е Вкаме 


бе1Баг е бск 
сһптуко Ше Нау "бо реда... 
СЛакЕЕ е божу 
б1иё бе бігагое бо Бедае.. 
ВТир бе Тозапе 
Е1ов е Пазбанова 


Для доступа кданным объектов были использованы несколько методов: сһ 114 () 
возвращает ссылку на объект ХМІ: : 5 ітр1еОЬјесї, представляющий дочерний эле- 
мент исходного узла. Метод сп і1 геп () возвращает список таких ссылок. С помо- 
щью методауа\џе () осуществляется поиск узла с символьными данными и возвра- 
щает скалярную величину. При передаче аргументов этим методам ограничивается 
диапазон поиска теми типами узлов, которые соответствуют шаблону. Например, с 
помощью метода сћіїй ( ‘пате' ) выбираются элементы < пате> в наборедочерних 
элементов. Если поиск был неудачным, метод возвращает значение џћае?. 

Описанная методика хороша для начала, однако она не годится при выполне- 
нии некоторых прикладных задач. Возможность доступа к узлам ограничена дву- 
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мя методами: выбором дочерних элементов или выбором их списка. Но доступ к 
элементу по имени не допускается, если хотя бы два элемента обладают одинако- 
выми именами. 

К сожалению, объекты рассматриваемого модуля не располагают методами 
вывода на печать ХМГ-кода, поэтому распечатка подобного документа оказывает- 
ся непростым заданием. Тем не менее, начинать лучше с простого, так что изучить 
возможности этого модуля не помечают. 


Модуль ХМІ::ТгееВиііег 


МодульхМЕ: : ТгееВиі1дег является классом фабрики, с помощью которого стро- 
ится дерево объектов ХМ 1: : Иетепе. Класс ХМІ: : Еетегі наследует данные более 
старого класса ХМЕ : ; Иетепф, входящего в состав пакета НТМЕ: : Тгее. Поэтому мож- 
но преобразовывать файл в дерево с помощью ХМІ: :ТгееВи11аег, а для переме- 
щения по нему, выборки данных из дерева или с целью изменения структуры де- 
рева, допустимо применять методы доступа ХМІ: :ЕІетепі. Обратите внимание на 
то, что методы доступа можно использовать для конструирования дерева по соб- 
ственным правилам. 

Предположим, что необходимо создать программу управления простым спис- 
ком заданий (с установленными приоритетами), который хранит записи в ХМІ- 
файле данных. Каждый пункт списка обладает «мгновенным» или «долгосрочным» 
приоритетом. Программа инициализирует список, если он пуст или если файл от- 
сутствует. Пользователь может добавить пункты, используя переключатели -1 или 
-1 (для указания «срочного» или «долгосрочного» приоритетов). И наконец, про- 
грамма обновляет файл данных и выдает результат на экран. 

В первом фрагменте кода, приведенном влистинге 6.7, программа создает струк- 
туру дерева. Если файл данных найден, программа выполняет его считывание с 
дальнейшим построением дерева. Если же результат поиска отрицателен, дерево 
создается «с нуля». 


Листинг 6.7. Диспетчер списка заданий, часть первая 


изе ХМ: :ТгееВиі1аег; 

изе ХМЕ: : Е1етепї; 

зе Себоре: : 56а; 

Параметры командной строки. 


-1 мгновенный. 
-1 долгосрочный. 
пу %0ріѕ; 


деборЕ$з( '11', \%ор{$ ); 


нициализация дерева. 
пу баба = 'дафа.хт1'; 
пу бегее; 


Если файл существует, следует его разобрать 
и построить дерево. 

1Е( -х бааба ) { 

бегее = ХМЕ; : ТгееВи114ег->пем( ); 
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$ гее->раг5е_111е($9а{а) ; | 
# Иначе, с самого начала создается новое дерево. 
} ее { 
ріп "Сүеаііпо пет даба 111е.\п"; 
ПУ @пом = 1оса1ќіте; 
пу даре = $бпом[4] . '/' . Ѕпом[3]; 
ЅЕгее = ХМ: :Е1ещепе->пем( 'Ёойо-1151', 'дафе' => баабе ); 
ЅЕхее->риѕћһ сопсепі ( ХМЕ : : Е1етепї- >пем( 'іттедіаїе' ) ) ; 
ЅЕгее->роѕһ сопёепё ( ХМ : : Елетепї->пем( '1опо-беип' )); 


} 


Добавим несколько комментариев, имеющих отношение к инициализации 
структуры. Минимальная структура файла данных должна быть следующей: 


<{оЧо-1${ ааіе="ОАТЕ"> 
<їітмедіаёе></ імтедйїаїе> 
<1опе- іегт> < /1оп&- {етп> 
< Лоао-1іѕї> 
При наличии элементов <іптедїіаїе> и <1оп8-фегт> необходимо добавить пун- 
кты расписания. Для этого с помощью метода пем () конструктора ХМ. : : ЕІетепі 
следует создать три элемента. Аргумент этого метода используется для присваи- 
вания имен элементам. Первый вызов метода содержит также аргумент 'йаїе' => 
фдаїе, что позволяет создать атрибут с названим "да*+е". После образования уз- 
лов элементов, необходимо выполнить их связывание. Метод риѕћ_соп+епії () до- 
бавляет узел в список содержимого элементов. 


Следующая часть программы обновляет файл данных, добавляя новый пункт, 
указанный пользователем. Место включения нового объекта выбирается с помо- 
шью используемой опции-переключателя (- ў или -1). Для вывода ХМГ-файла 
применяется метод аз_ХМЕ, что и показано в листинге 6.8. 


Листинг 6.8. Диспетчер списка заданий, часть вторая 


# Добавление новой записи и обновление файла. 
іғ( %орїѕ ) { 
ту Фііет = ХМЕ: :Е1етепі->пем( 'іѓет' ); 
$ 11ет->ризН_сопфепе( ѕһі?і @АКСУ ); 
ту $р1асе; 
1Е( Форіѕ{ '1' }) { 
$р1асе = $#гее->?іпа Бу їав пате( ‘іттеаіаїе' ); 
} е15і#( Форїѕ{ '1' }) { 
$р1асе = фігее->?іпа бу ар пате( '1опв-тегт' ); 
} 
$р1асе->риѕһ сопёепї( $іїет ); 
} 


ореп( Е, ">фааїа" ) ог аіе( "Соц!9п'{ ирдае ѕсһеаише" ); 
ргіпі Е $ее->аз_ХМи; 
сІоѕе Е; 


И наконец, эта программа выдает на терминал текушее расписание. Чтобы пе- 
рейти от рассматриваемого элемента к дочернему элементу с указанным именем 
тега, используется метод ?іпа Бу ав пате (). Если под описание подходят не- 
сколько элементов, метод выстраивает их в список. Доступ к содержимому эле- 
ментов в списке может осуществляться с помощью двух методов: аёїг_веї_1() 
предназначен для атрибутов, а аѕ_їіехї() — для символьных данных. В листин- 
ге 6.9 приводится последняя часть программы. 
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Листинг 6.9. Диспетчер списка заданий, часть третья 


Вывод расписания. | 

ріл "То-ао 1186 Рог" . $#гее->аїїг реї 1( 'дабе' ) . ":\п"; 

ріп "\про гісі амау:\п"; 

пу $іттедіаїе = $їгее->#іпа ру іар пате( 'іттедіаїе' ); 

гау $сочпї = 1; 

Ғогеасһ пу $1%ет ( Ѕілпедіасе->Ғіпа фу Бас папе( 'ібет' )) { 
ріп %соипі++ . '. ' . $іїет->аѕ ех . "\п"; 

} 


ріп "\проућепеуег : \п"; 
пу $1опеїегт = $їгее->#іпа бу іар пате( '1опе-їегт' ) ; 


бсо = 1; 

Ғогеасһ ту Ѕібетп ( $1опріегт->#іпа Бу бар пате( 'ібеп' )) { 
ріп фсоипі++ . '. ' . $44ем->а$ іехї . "\п"; 

} 


Чтобы проверить программу, мы включили в файл данных несколько вызовов 
программе (пробелы и символы табуляции улучшают восприятие кода): 


<Фодо-115Е дасе="7/3"> 
<іттедіаїе> 
<11ет>факе оо1аеі е бо е уеї</ ітет> 
<ібсатоес аррейб]х гетмоуей</ їїет> 
</іттеаїаїе> 
<опо-беит> 
<іёет>с1іть К-2</1сет . 
<ісет>десірћег а1іеп теѕѕавеѕ</ їіїет> 
</1опо-веит> 
</кадо-1156> 


На экране отображается следующий результат: 
То-ао 1151 Ғог 7/3: 
Ро глобЕ амау: 


1. баке со1ағіѕћһ іо ёћһе уеё 
2. де аррепаіх гепоуеа 


Ро ућепеуег: 
1. с1іпр К-2 
2. десірһег а1іеп пеззадез 


МодульхМі::Сгоме 


Последняя объектная модель, которая будет рассмотрена перед переходом к стан- 
дартным решениям, — модуль ХМІ: : бгоуе, предложенный Кеном Мак-Леодом 
(Кеп МасГеоа). Подобно модулю ХМС : 5ітр1е0бјесї, в данном случае вывод 
модуля ХМЕ: :Рагзег в режиме дерева заменяется иерархической структурой 
объектов. Различие в том, что каждый узел представлен отдельным классом. Та- 
ким образом, для любого элемента может устанавливаться соответствие с объек- 
том ХМЕ: : бгоуе: : етеп, для инструкций по обработке — соответствие с объек- 
том ХМІ: : бгоуе: : РІ ит. д. Текстовые элементы применяются в качестве скалярных 
значений. 

Другая особенность этого модуля состоит в том, что объявления во внутрен- 
нем подчиненном наборе объединены в списки, доступ к которым осуществляется 
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с помощью объектахмі : : С гоуе. Каждая сущность или запись объявления доступ- 
ны для подробного разбора. Например, следующая программа подсчитывает рас- 
пределение элементов и других узлов, а затем выводит на экран список типов уз- 
лов и частоту их появления. | 

Сначала инициализируется анализатор в стиле «ргоуе» (при этом модулю 
ХМІ: :Рагзег сообщается о том, что для выдачи результата следует использовать 
модуль ХМі : : Рагѕег: : Огоуе): 


иѕе ХМІ ::Рагѕег; 
изе ХМ: : Рагѕег: :бгоуе; 
иѕе ХМІ::Сгоме; 


ппу Ѕрагѕег = ХМі: :Рагѕег->пен( 5їуІе => 'Огоуе', МоЕхрапа => '1' ); 

гпу Фогоме = $рагѕег->рагѕе?ії1е( ЗИ @АВСУ ); 

Чтобы получить доступ к содержимому объекта эгоуе вызывается метод 
сопёепїѕ(). Он возвращает список, содержащий корневой элемент, все коммен- 
тарии или внешние Р1-индикаторы. Подпрограмма {абу1а*е() подсчитывает 
узлы и рекурсивно обходит дерево в направлении «сверху-вниз». Окончательно 
на печать выводится следующий результат: 


# Знаки табуляции для элементов и других узлов. 
пу %015+; 
Ғогеасһ( @{$огоуе->сопїіепіѕ} ) { 

&їіаришаїе( $_, \%а15# ); 


ги пі "\пМ№ОрЕЅ ; \п\п"; 
ТогеасН( ѕогї Кеуѕ %151 ) { 
ргіпі "$_: ". $аіѕі $). "\п": 

} 

Здесь приведена подпрограмма, которая учитывает каждый узел в дереве, пред- 
ставляющий собой отдельный класс. Для получения сведений о типе узла можно 
применять метод геЁ(). В этой модели атрибуты не отождествляются с узлами, 
а доступ к ним осуществляется с помощью метода аїїгіриѓеѕ () (каки в случае 

‚ с хэш-объектами). Благодаря методу сопфеп{$ () процедура может продолжать об- 
работку дочерних элементов: 


# Для данного узла и таблицы определяется тип узла, 
# добавляется учитываемое значение и, при необходмиости, 
# выполняется рекурсия. 


зар сарлабе { 
пу( бпоае, ба е ) = @_; 


пу Ѕсуре = геЁ( бпоае ); 
1Е( буре ес 'ХМі: :бгоуе: : Елешеп*' ) { 
Ѕсар1е->{ 'е1етеп*' }++; 
Ѕеар1е->{ 'еІетепі (' . $роде->паше . ' 
Ғогеасһ ( Кеуз %{ %пойе->аїїгіриїеѕ} ) { 
Ѕеар1е->{ "асиірие ($_)" }++; 


)'}++; 


} А 

Ғогеасһ( @{Ѕподе->сопёепёѕ) ) { 
&сарлабе( $_, каше ); 

} 


} е151#( 5Суре ес 'ХМІ.::бгоуе::Епёіїу' ) { 
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Ѕеаре->{ 'елілбу-уеЁ (' . $поде->пате . ')' }++; 
} е151ғ( Буре еа 'ХМЕ::бгоуе::РІ' ) { 

Ѕеар1е->{ 'РТ (' . Ѕподе->багодеі . ') ' }++; 

_} е151#( Ѕбуре ес 'ХМі : :бгоуе: : Соттепї' ) { 

ЅсарІе->{ 'сопиейе' }++; | 

}е1ѕе { 
} Ѕеаріе->{ 'бехі-поде' }+ 


} 


Ниже демонстрируется типичный результат, полученный в результате исполь- 
зования входного ХМГ-файла данных: 


МОЕ: 

РІ (а): 1 

ассгіриёбе (дабе) : 1 
асігіриёе (ѕіу1е): 12 
асігіриёе (буре): 2 
е1етепё: 30 

е1епепі (сабедогу): 2 
е1епепі (іпуепбогу) : 1 
е1етпеп (ібет): 6 
е1епепі (1осаібіоп): 6 
е1етепі (пате) : 12 
е1епепі (побе): 3 
Сехі-поде: 100 


Объектная 
модель документа 
(РОМ) 


В этой главе мы вернемся к рассмотрению стандартных интерфейсов АРІ совме- 
стно с объектной моделью документа (РОМ). В главе 5 уже упоминалось о пре- 
имуществах, связанных с применением этих объектов, — совместимость с другими 
программными компонентами и гарантированное достижение требуемых резуль- 
татов. Роль модели РОМ в процессе обработки деревьев аналогична функциям, 
выполняемых ЅАХ в случае применения потоков событий. 


ООМ и Рей 


Применение модели РОМ рекомендуется консорциумом У\\ЗС. Разработанная в 
качестве независимого от языка интерфейса, выполняющего представление ХМТ- 
документов в памяти, модель РОМ существует в различных языках (например, 
Јауа, ЕСМАзсире или Реп). В Рей имеются несколько реализаций модели РОМ, 
втом числе воплощенные в составе модулей ХМі : : ВОМ ихМі : : Г16ХМЕ, 

В то время как ЅАХ определяет интерфейс методов обработчиков, специфи- 
кация РОМ поддерживает набор классов, каждый из которых выступает в роли 
интерфейса для методов, применяемых для обработки ХМГ-разметки опреле- 
ленного типа. Следовательно, каждый экземпляр объекта управляет определен- 
ной частью дерева, обеспечивая методы доступа, позволяющие добавлять, переме- 
щать или изменять узлы либо данные. Обычно эти объекты создаются фабрикой 
объектов, благодаря возможностям которой программисту остается всего лишь 
инициализировать требуемый объект. 

При работе с моделью РОМ каждый фрагмент ХМГ-кода (будь это элемент, 
текст, комментарий или какой-либо другой элемент) следует представлять в виде 
объекта Моде. Абстрактный класс №ъ№ае расширяется с помощью конкретных клас- 
сов, которые реализуют различные типы ХМГ-разметки, в том числе ЕИетепь 


\ Язык, соответствующий общепринятым стандартам, который появился после ЈаүаЅсгірі. 
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Аїїг, Ргосе$ $17175 ЕгисЕ1ол, Соттепї, Елі і туКе{егепсе, Тех, СРАТАЅес Е1оп и 
роситепї. На основе этих классов создаются ХМТ--деревья в модели РОМ. 

В стандартных версиях модели предусмотрены также несколько классов, кото- 
рые служат контейнерами для узлов. Это удобно при перемещении фрагментов 
ХМІ-кода с места на место. Примером подобного класса может служить №од еі і $%, 
представляющий упорядоченный список узлов, например, перечень всех дочер- 
них элементов; МатедћодеМар — неупорядоченный набор узлов. Объекты из этих 
классов часто используются в качестве аргументов методов или возвращаются об- 
ратно этими же методами. Обратите внимание на то, что рассматриваемые объек- 
ты оказывают влияние на состояние документа. Изменение одного из них немед- 
ленно влечет за собой изменение узлов в самом документе. 


В ходе присваивания имен классам и методам модель РОМ определяет только 
внешний вид реализации процесса, оставляя внутреннюю структуру на усмотре- 
ние разработчиков. В данном случае не учитываются особенности, связанные с 
управлением памятью, структурами данных и алгоритмами, так как они могут за- 
висеть как от применяемого языка программирования, так и от запросов пользова- 
теля. Заказывая копию ключа слесарю, заказчик может не знать, каким образом 
устроен замок, ему достаточно знать, что дубликат ключа откроет замок. Анало- 
гично спецификация внешнего вида упрощает создание расширений для наслед- 
ственных модулей, согласованных со стандартом. При этом не гарантируется со- 
здание оптимального или быстродействующего кода. 

Модель РОМ представляет большой набор стандартных механизмов, способ 
применения которых сильно зависит от имеющегося уровня их совместимости. 
Каждый стандарт определяется на двух уровнях (скоро планируется появление 
третьего уровня). Версия ОМІ была выпущена в 1998 году, а версия 20М2 по- 
явилась несколько позднее. Основное различие между уровнями состоит в том, 
что более поздний выпуск поддерживает пространства имен. Если их не использо- 
вать, то возможностей версии 20М1 вполне достаточно. 


Справочное руководство” — 
по интерфейсным классам РОМ 


Так как модель РОМ становится наиболее предпочтительным интерфейсом при 
совместном использовании языков Ре! и ХМІ, изучим ее более подробно. В сле- 
дующих разделах описываются отдельные интерфейсы классов, перечислены их 
свойства, методы и выполняемые задачи. 


СОВЕТ — 
В спецификации РОМ определяется стандарт кодировки ТЕ-16, Тем не менее, в большинстве 
вариантов языка Рей стандартным образом выбирается кодировка ЦТЕ-8. Поэтому обработка 
символов, занимающих больше 8 битов, сопряжена с дополнительными трудностями. 
В следующих версиях РОМ эта проблема будет решена путем поддержки кодировки ИТЕ-16, 


Класс Ооситег 


Класс Ооситепі реализу ет управление документом в целом, создавая при необхо- 
димости новые объекты и поддерживая информацию высокого уровня, такую как 
ссылки на объявление типа документа и корневой элемент. 
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Свойства 
. Яосіуре — объявление типа документа (Роситеп{ Туре Реаганоп, ОТО); 
• доситепіЕіетепі — корневой элементдокумента. 


Методы 
• стеаіеЕіетепі, сгеаіе Техі№ойе, сгеаіеСоттепістеаіеСРАТА Ѕесйоп, 
сгеаіе-РгосеѕѕіпвІпѕігисіоп, стеаѓе Айгіриіе, стеаіеЕпійїу Кејеғепсе—тене- 
рируют новый узловой объект; 
• сгеаіеЕїетепіМ5, стеаѓе Айтірше№5 (только в Р0М2) — генерируют новый 
элемент или узловой объект-атрибут с конкретным спецификатором про- 
странства имен; 


• стеаіеРоситепітартепі — создает объект-контейнер для поддерева доку- 
мента; 
• веететзВуТаМате — возвращает списокМойе 145% элементов со всех 


уровней документа, имеющих заданное имя тега; 


• веЕетепіѕВуТавМатеМ5 (только в Р0М2) — возвращает списокМ оае 1.151 
всех элементов, обладающих заданным спецификатором пространства имен 
и локальным именем (здесь символу звездочки (*) может соответствовать 
любой элемент или пространство имен, что позволяет осуществлять поиск 
всех элементов в указанном местоположении); 


• реіЕЇетепіВуЇа (только в Р0М2) — возвращает ссылку на узел, который об- 
ладает указанным атрибутом идентификатора; 


• ітрот№ойе (только в Р0М2) — создает новый узел, представляющий собой 
копию узла из другого документа (эта операция аналогична «копированию 
в буфер», выполняемому при импорте разметки. 


Класс ОоситепёРгадтепі 


Класс РоситепёЕгартепі может включать фрагмент документа. Узлы-потомки 
являются вершинами ХМІ-деревьев. Этот класс отличается от класса Боситеп*, 
который обладает, как минимум, одним дочерним элементом, корнем документа 
и метаданными (например, типом документа). При этом содержимое класса 
ОоситепРгазтепе не является полностью завершенным, хотя оно и удовлетво- 
ряет критериям завершенности ХМГ-текста (отсутствие запрещенных символов 
в тексте ит. п.) 

Конкретные методы и свойства отсутствуют; для получения доступа к данным 
используются обобщенные методы доступа к узлам. 


Класс роситепіТуре 


Этот класс содержит всю информацию, заключенную в объявлении типа докумен- 
та в заголовке документа, кроме данных о внешних объявлениях ОТО. Поэтому 
класс дает название корневому элементу и всем объявленным сущностям или за- 
писям во внутреннем подмножестве объявления ОТО. 

Для этого класса не определены конкретные методы, свойства являются обще- 
доступными (но доступны только в режиме считывания). 
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Свойства 
• пате — имя корневого элемента; 
• епИЦез — объект Мате МодеМар для объявлений сущностей; 
. поайоп — объект МатеаМо4еМар для объявлений записей; 


• ищетаибзе (только в РОМ2) — внутреннее подмножество объявления 
ОТО, представленного в виде строки; 


• рибйс1а (только в РОМ2) — внешнее подмножество общедоступных специ- 
фикаторов в объявлении ОТО; 


* зубет]ЛА (только в р0М2) — внешнее подмножество системных идентифи- 
каторов в объявлении ОТО. 


Класс Моае 


Все типы узлов наследуют внутренние данные класса № ое. С помощью этого 
класса можно получить доступ к любому свойству или методу, общему для всех 
узлов. В некоторых случаях свойства узлов не определены, например, свойство 
уаше не определено для узла ЕІетепі. Иногда в некотором программистском 
контексте удобно использовать обобщенные методы, например, при разработке 
программ для обработки узлов различных типов. С другой стороны, если извест- 
но заранее с каким типом узлов придется работать, следует использовать методы 
этого конкретного класса. 

Все свойства, кроме поде\Уаше и рге?іх, доступны только в режиме считыва- 
НИЯ. 


Свойства 


. подеМате — свойство, определенное для элементов, атрибутов и сущностей 
(в контексте элементов в роли этого свойства выступает имя тега); 


. подеГаше — свойство, определенное для атрибутов, текстовых узлов, сек- 
ций СБАТА, процедурных интерфейсов (РТ) и комментариев; 


. поаеТуре — один из следующих типов узлов: Нетет, Аїїг, Тех, 
СРАТАЅесї1їоп, Еп ёуКЌетегепсе, Епіїїу, РгосеѕѕіпвІпѕігисііоп, Соттепь 
Рроситепї, ВоситепЕТуре, СоситепЕЕгавтепї или МотаНоп; 


. рағепіМоӣе — ссылка на узел, родительский для данного узла; 


. срИАаМ№о4е — упорядоченный список ссылок на дочерние узлы данного узла 
(если таковые имеются); 


• ЛРУСИИа, [аяСИИА — ссылки на первый или последний дочерний узел (если 
таковые имеются); 

• ргеуюиз ив, пехі$іЫіп= — узел, предшествующий рассматриваемомуузлу 
или следующий сразу за ним, соответственно; 


. айпфше;у— неупорядоченный список (МатеЯМодеМар) узлов, являющихся 
атрибутами рассматриваемого класса (если таковые имеются); 


* охпеғПоситепі — ссылка на объект, содержащий весь документ — полезна в 
случае, если необходимо сгенерировать новый документ; 
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. патеѕрасе0ВІ (только в Р0М2) — пространство имен ОВТ, применяется, 
если рассматриваемый узел обладает префиксом; в противном случае воз- 
вращается пустая ссылка; 

. ргейх (только в О0ОМ2) — префикс пространства имен, связанный с рассмат- 
риваемым узлом. 


Методы 
. тзетВероге — включает узел перед указанным дочерним элементом; 
. герасеСйИА — заменяет дочерний элемент новым, указанным в аргументе, 

и возвращает взамен старый узел; 

аррепасШа — добавляет новый узел в конец списка дочерних объектов для 

рассматриваемого узла; 

расйИАаМ№аез — возвращает истинное значение, если узел обладает дочер- 
ними элементами; в противном случае — ложное значение; 

. сІопе№оае — возвращает дубликат рассматриваемого узла. Этот метод являет- 
ся альтернативным и применяется для создания узлов. Все свойства сгенери- 
рованного узла идентичны свойствам предка, кроме свойства рагепіМћоае, 
значение которого будет неопределенным, и свойства сһі 1 №одеѕ, обладаю-. 
щего пустым значением. Дублированные элементы будут обладать теми же 
атрибутами, что и оригинальный элемент. Если аргументу ӣеер присвоено 
истинное значение, копируются все потомки рассматриваемого узла; 


. ПазАитЬшех (только вПОМ2) — возвращает истинное значение, если рас- 
сматриваемый узел обладает указанными атрибутами; 


. 55ирропеа (только в РОМ2) — возвращает истинное значение, если исполь- 
зуемая версия модели поддерживает указанные свойства. 


Класс Моаецѕї 


Этот класс содержит упорядоченный список узлов. Он имеет динамичную приро- 
ду, вследствие чего все текущие изменения структуры узлов сразу же переносятся 
в документ. 
Свойства 
. [епай — возвращает целочисленное значение, соответствующее количеству 
узлов в списке. 


Методы 


• Пет — берет целочисленное значение и, возвращает ссылку нам-й узел в 
списке, причем отсчет начинается с нуля. 


Класс МатедМодеМар 


Этот класс включает неупорядоченный набор узлов и позволяет осуществить дос- 
туп к узлам по их именам. Предусмотрена также альтернативная возможность до- 
ступа к элементам по номеру, но элементы при этом остаются неупорядоченными. 


Свойства 
. [еп — возвращает целочисленное значение, соответствующее числу узлов 
в списке. 
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Методы 
• веМатеаПет, зеМате4Йет — выбирает или добавляет узел с помощью свой- 
ства подеМате узла, используя его как ключ; 
* тетооеМатейЙет — возвращает узел суказанным названием, отыскивая его 
всписке; 


• Йет — берет целочисленную величину и, возвращает ссылку нам-й узел в 
списке. Следует отметить, что метод не упорядочивает элементы в списке и 
применяется только в списках с неповторяющейся нумерацией; 


. реМатеаЙйетМ5 (только в РОМ2) — отыскивает узел, используя его имя, 
которое действительно в пространстве имен имя (префикс пространства 
имен и локальное имя); 


• тетооеМатеанетМ (только в РОМ2) — выбирает пункт из списка, исполь- 
зуя его имя, которое действительно в пространстве имен; 


• зе МатеайетМ$ (только в РОМ?) — вноситузел в список, используя его имя, 
которое действительно в пространстве имен. 


Класс Сһагасіеграїа 


Этот класс является расширением класса Моде и обеспечивает более удобный до- 
ступ к узлам, содержащим символьные данные, а именно Тех, СРАТАЅесіїоп, 
Соттепі и Ргосе$$11п51п${гис*1оп. Такие классы, как Техі, наследуют свойства 
и методы рассматриваемого класса. 
Свойства 

. аа — собственно символьные данные; 


. [епей — количество символов в структуре. 


Методы 
• аррепаБаа — добавляет строку символов в конец свойствадаїа; 


• зибяпиеОаа — выбирает и возвращает сегмент свойствадафа, начиная с по- 
зиции, заданной величиной смещения, заканчивая в позиции, заданной ве- 
личиной смещения + аргумент (от оўѕеѓ до оффе! + соипі); 


• іпѕеғіРаіа — включает строку в свойство аѓа в позиции, заданной величи- 
ной смещения (0//5её); 

. деІеіеПаіа — присваивает свойствуйаїа значение, соответствующее пустой 
строке; 

. герасераа — заменяет содержимое свойствада ёа новой строкой, заданной 
аргументом метода. 


Класс Нетет 


Класс Е1етепї представляет наиболее часто встречающуюся разновидность уз- 
лов. Он может содержать другие узлы и узлы-атрибуты. 


Свойство 
е тагпате — имя элемента. 
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Методы 
• реіАйтіБиѓе, веАиптьшеМойе — возвращаетзначение атрибута или ссылкуна 


узел-атрибут с заданным именем; 


задиптьше, заАипьшеМоде — добавляет новый атрибут к списку элементов 
или заменяет существующий атрибут с таким же именем; 


тетооеАіїтіБиѓе, ғетооеАйтіђиіећоде — возвращаетзначение атрибута и уда- 
ляет его из списка элементов; 


БеіЕЇетепіѕВуТавМате — возвращает значениесвойства Моде $ потомков 
элементов, имена которых соответствуют имени, указанному в аргументе; 


погтайсе — объединяет смежные узлы текста. Этот метод следует применять 
после того, как были добавлены новые текстовые узлы, что позволит обес- 

печить устойчивость структуры документа и не приведет к появлению фик- 

тивных дочерних элементов; 


веіАйгіриїіе№ (только РОМ2) — отыскивает и возвращает значение атри- 
бута, используя его имя, которое действительно в пределах списка (префикс 
пространства имен плюс локальное имя); 


веАнпЬшеМоаеМ5 (только в РОМ2) — выбирает узел атрибута, используя 
уточненное имя; 

ве ететзВуТавМатез №5 (только в Р0М2) — возвращает список Моде! $ 
элементов, составленный из тех потомков рассматриваемого элемента, име- 
на которых соответствуют уточненному имени; 
һаѕАйғіриіе (только в "0М2) — возвращает истинное значение, если эле- 
мент имеет атрибут с указанным именем; 

разАитьшеМ5 (только в РОМ2) — возвращает истинное значение, если рас- 
сматриваемый элемент имеет атрибут с указанным уточненным именем; 
тетобеАнтшеМ5 (только в РОМ2) — удаляет и возвращает из списка эле- 
ментов узел-атрибут, используя для выбора имя, которое ограничено в про- 
странстве имен; 


ѕеіАнтіриіеМЅ (только в РОМ?) — добавляет новый атрибут в список элемен- 
тов с указанным именем, ограниченным в пространстве имен и значением; 


зеАнтие Мое МУ (только в П0М2) — добавляет к списку элементов новый 
узел с именем, ограниченным в пространстве имен. 


Класс Айг 
Свойства 


пате — имя атрибута. 


ѕресійеа — если программа или документ явнымобразом устанавливает зна- 

чение атрибута, то свойство принимает истинное значение. В противном 
случае, если значение атрибута указано в объявлении ОТО, как стандарт- 
ное, присваиваемое автоматически, и не изменяется в ином месте, свойство 
принимает ложное значение; | 


уаше — значение атрибута, представленное как текстовый узел; 
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• ошпе’ететё (только в РОМ2) — является элементом, к которому относит- 
ся рассматриваемый атрибут. 


Класс Теж 


Методы 


. ЅрШТехі — разбивает текстовый узел на два смежных узла, каждый из кото- 
рых содержит часть текстового содержимого исходного узла. Содержимое 
первого узла образует часть, с начала исходного текста до символа, позиция 
которого задается смещением (ое. Второй узел содержит оставшуюся часть 
исходного содержимого. Этот метод оказывается полезным втом случае, ког- 
да внутрь текстового фрагмента необходимо включить новый элемент. 


Класс СОАТАЗесйоп 


Класс СРАТАЅесїіоп подобен текстовому узлу, но его содержимое защищено от 
вмешательства анализатора. Он может содержать символы разметки (<, &), что 
запрещено в текстовых узлах. Для доступа к данным следует использовать обоб- 
щенные методы класса Моде. 


Класс Ргосеѕѕіпдїлѕігисіоп 


Свойства 
• агре — целевое назначение узла; 
. аа — назначение данных узла. 


Класс Соттепї 


Этот класс содержит узлы комментариев, Для доступа к данным следует ИСПОЛЬ- 
зовать обобщенные методы класса № чае. 


Класс ЕпійуВеѓегепсе 


Этот класс задает объектную ссылку, определяемую узлом Епїі фу. Иногда анали- 
затор может быть настроен так, что будет разбирать все объектные ссылки на их 
составляющие. Если эта опция отключена, анализатор создает соответствующий 
узел. При выполнении разбора не применяются специальные методы, но некото- 
рые действия с узлами могут иметь побочные эффекты. 


Класс Епійу 


Этот класс обеспечивает доступ к сущностям в документе, используя при этом 
информацию из объявления ОТО. 


Свойства 


• риһісІа — общедоступный идентификатор ресурса (используется в том слу- 
чае, если сущность является внешней для документа); 
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• зуетА — системный идентификатор ресурса (используется в том случае, 
если сущность является внешней для документа); 


* поанопМате — если сущность не поддается разбору, в этом свойстве содер- 
жится информация относительно ее записи. 


Класс Моїаіоп 


Класс МоайНоп представляет объявление записи, документируемое в объявле- 
нии ТР. 


Свойства 
• рибйс1а — общедоступный идентификатор записи; 
• умен! — системный идентификатор записи. 


Модуль ХМІ:: рОМ 


Чтобы изучить модель РОМ, применяемую в Реп, лучше начинать со знакомства 
с модулем ХМ: :00М от Энно Дерксона (Еппо Юегкѕоп). Эта модель является пол- 
ностью реализованной версией модели РОМ первого уровня, в которую для удоб- 
ства включены несколько дополнительных свойств. Модуль ХМі: : ром: : Рагзег 
расширяет возможности модуля ХМІ: :Рагзег, обеспечивая построение дерева до- 
кумента, встроенного в объект ХМІ: :00М: : роситепї, возвращая ссылку на этот 
объект. Эта ссылка открывает полный доступ кдереву. Все остальные модули функ- 
ционируют предсказуемым образом. 


Ниже приведена программа, которая использует модель РОМ для обработки 
ХНТМІ-файла. Она отыскивает слова «топкеуз», заключенные в теги <р>, и за- 
меняет каждое слово динамической ссылкой топкеуза сот. Конечно, то же самое 
можно осуществить с помощью обычного механизма замены выражений, тем не 
менее, этот пример полезен. Здесь показано, каким образом, не отходя от ориги- 
нального стиля объектной модели документа, осуществляется поиск и создание 
новых узлов, считывание и замена значений. 


В первой части программы создается анализатор, а путем вызова метода 
рагзе ШеО осуществляется передача файла для разбора: 


и5е ХМЕ ; : ром; 
&ргосе$$_111е( З1ҒС ФАКСУ ); 
эф ргосеѕѕ іле { 
пу $іп?і1е = 51Е6; 
шу $90т_рагзег = пех ХМ: : 00М: :Рагзег; # создание 
# анализатора 
шу $80ос = $4от_рагзег->раг$е{11е( $іп?і1е );# передача 


бааа 1іпкѕ( $дос ); # выполнение изменений 
ргіп $аос->бобігіпо; # повторный вывод дерева 
$д0ос->аіѕроѕе; # очистка памяти 
} 
При выполнении метода возвращается ссылка на объектХМИ: : роМ: : Ооситепь 
который «открывает двери» на пути к внутреннему содержимому узла. Програм- 
ма передает эту ссылку процедуре ада 11 пкѕ (), которая производит все необхо- 
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димые действия. И наконец, программа выдает результат, вызывая метод 
їо8їгіпвО и разрушая объект. На последнем этапе производится необходимая 
очистка памяти на случай, если циркулярные ссылки между узлами могут приве- 
сти к «засорению» и нехватке памяти. 

В следующей части программы производится внедрение в дерево с целью нача- 
ла обработки параграфов: 


зі аса 1іпкѕ { 
пу 500с = ЗЕ; 
.# Поиск всех элементов <р>. 
пу $рагаѕ = $аос->дееЕ1етепеЕВуТадМате( "р" ); 
Ғор( шу $1 = @; $1 < $рагаѕ->реїепвїһ; $1++ ) { 
шу $рага = $рагаѕ->іїёем( $1 ); 
# Обработка всех текстовых узлов, которые 
#являются дочерними ‘элементами для элементов ‹р>. 
шу @сһі1дгеп = $рага->веїсһі1амодеѕ:; 
Ғогеасһ ту $поае ( ёсһі1агеп ) { 
&#1х_тех* ($поде) 1? ($поде->реїМойеТуре ес ТЕХТ _М№ОрЕ); 
} 
} 
} 


Выполнение процедуры ада _1і пкѕ () начинается с вызова метода объекта доку- 
мента феёЕ1етепёѕВуТаєМате (). Она возвращает объект-списокХМЕ : : 00М: : Моде $, 
содержащий перечень соответствий элементу <р> в документе (вот почему много- 
уровневый поиск оказывается удобным механизмом), в котором выбор узлов мож- 
но осуществить по индексам, используя метод і {ет (). 

Интересующий нас в данное время фрагмент текста скрыт в текстовом узле 
внутри элемента <р>, поэтому, чтобы отыскать его, необходимо перебрать все 
дочерние элементы, выбирая и обрабатывая только текстовые узлы. Обращение 
к методу реїсСһі1а№одеѕ () приведет к отображению нескольких дочерних уз- 
лов, в виде оригинального списка языка Рег! (если обращаться к содержимому 
массива) или другого объекта-списка ХМЕ : : р0М: : МодеГл $51, В рассматриваемом 
примере выбран первый вариант. Тип каждого узла проверяется с помощью ме- 
тода зе МодеТуре, а результат сравнивается с константой ХМі: :БОМ для тексто- 
вых узлов, поддерживаемой с помощью метода ТЕХТ_М№ООЕ (). Проверенные узлы 
передаются процедуре с целью их дальнейшей обработки. 

Последняя часть программы обрабатывает текстовые узлы, разбивая их на гра- 
нице со словом «топкеуз». При этом создаются ссылки: 

эф Их бехё { , 

пу $поае = 711 ЕС; 
пу 5бехЕ = ѕподе->оесмодеуа1џе: 
1Е( Ѕсехі =- / (попкеуѕ) /1 ) { 
# Разбивает текст на 2 текстовых узла возле слова 
# попкеу. 
шу( $рге, $019, бровЕ ) = ($', $1. $' ); 
пу $споде = $пойе-> веїОмпегроситепї->сгеаїеТехїћойе( $рхе ); 
Ѕподе->деЕРагепіМойе->іпѕегЕВеҒоге( $пойе, Ѕ$пойе ); 
$пойе->ѕеЕМойеүа1мюе( $роѕі ); 
# Включает элемент <а> между двумя узлами. 
шу $1іпк = $поде- > реёОипегроситепї->сгеаёеЕ1етепї ( 'а' ); 
$1іпк->ѕесдібгірибе( 'ЬгеЁ, 'ЬЕБр://мим.попкеузЕаЕЕ.сот/' ); 
$іподе = $пойе- >реїОипегроситепї- >сгеаїеТехїМ№ойе( $ог1а ); 
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$11іпк->аррепасһі1а( ѕспоаде ); 
Ф$поде->реїРагепіћоде->іпѕег{Веѓоге( 511пк, бподе ); 
# Рекурсивно проходит оставшуюся часть текстовых узлов 
# на случай, если искомое слово попадется еще раз. 
11х_фех®( Ѕподе ); 
} 


} 


Сначала процедура получает текстовое значение узла, вызывая метод 
зе Моде\Уае(). В модели РОМ существуют как дополнительные методы до- 
ступа, используемые для получения или установки значений или имен, так и 
групповые и специализированные методы класса Моде. Вместо реїћойеуа1џе () 
в программе можно было бы вызвать метод ѕеіраѓа (), предназначенный спе- 
циально для класса текстовых узлов. Некоторые узлы, например, элементы, не 
имеют определенных значений, поэтому обобщенный метод зе Мо4е\УашеО 
возвратит неопределенный результат. 

Затем программа разделяет узел на две части. При этом перед существующим 
текстовым узлом внедряется егодвойник. Послетого, кактекстовые значения каж- 
дого узла установлены, первый узел будет содержать все текстовое содержимое до 
слова «топКеуз», адругой — все, что находилось после него. Следует отметить, что 
в приведенном примере объектХМі : :00М: : роситепі использовался как фабрика 
для создания нового текстового узла. Использованная возможность модели РОМ 
автоматически предусматривает большое количество административных деталей, 
скрытых от пользователя, упрошая и обеспечивая этим безопасность процесса со- 
здания новых узлов. 

На следующем шаге программа создает элемент < а> и включает его между тек- 
стовыми узлами. Как и в случае с любой полноценной ссылкой, здесь требуется 
найти место, чтобы включить ОКІ, поэтому в программе используется атрибут 
һге?, С целью определения области щелчка мышью необходимо указать текст ссыл- 
ки, поэтому программа создает текстовый узел со словом «топКеуѕ» и добавляет 
его в список дочерних элементов. Затем процедура рекурсивно просматривает ос- 
тавшийся фрагмент текстового узла на случай, если слово И встречается 
несколькораз. 

Работаетли данная программа? Запустите ее на выполнение, воспользовавшись 
следующим файлом: 

<і> 

<һеаа><іїЛе>Мћу І 11ке Мопкеуѕ</їїї1е></һеад> 

<роду><һ1>Мһу Т 13ке Мопкеуѕ</һ1> 


<«ћ2>Мопкеуѕ аге Сосе</ћ2> 
<«роМопкеуѕ аке <р>сиїе</Ь>. еу аге Шке зпе11, Њурег уеүѕіспѕ оЁ 


олгѕе1уеѕ. еу сап пеке Елу Ғәсіа] ехогеѕеіолѕ ай. ѕоіск ош Ее 


Солдџеѕ.</р> 
< 


</һїітмі> 
Результат выполнения программы будет следующим: 
<Ыт> 


<һеадь<ііб1е> Му І 1іке Мопкеуѕ</їії1е></һеад> 
<родухһ1>мһу І 1іке Мопкеуѕ</ћ1> 

<һ2>Мопкеуѕ аге Собе</ћ2> 

<р><а ћге?="һіЕр: //мми. топкеуѕіи?+. сот/ "> Мопкеуѕ</а> 
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аге <Б>сибе</б>. Тћеу аге 11ке эта], Пурех уегѕіопѕ оЁ 

оогѕе1уеѕ. Тбеу сап паке Ёлиму ЁҒасіа] ехргеѕѕіопѕ апа ск ось ег 
Топвиеѕ. </р> 

</Боду> 

<Љемь> 
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МодульХМ | : :і. 1ЬХМ Г, Мэтта Сержанта (Май Ѕегреапі) является интерфейсом биб- 
лиотеки Г4ЬХМТ, из проекта СМОМЕ. Он быстро завоевал репутацию популяр- 
ной версии модели РОМ, отличаясь быстродействием и завершенностью по срав- 
нению с более старыми версиями модулей ХМ : : Рагзег. Здесь также реализована 
модель РОМ второго уровня, благодаря чему обеспечивается встроенная поддерж- 
ка пространств имен. 

До сих пор мы практически не работали с пространствами имен. Большинство 
программистов избегает применения этих объектов. Они усложняют структуру про- 
граммы, вводя дополнительные уровни сложности разметки и кода в случае, если 
появляется необходимость одновременно поддерживать локальные имена и префик- 
сы. Тем не менее, с каждой новой версией ХМГ. пространства имен приобретают все 
большее значение, и скоро обойтись без них просто не удастся. Например, подоб- 
ный объект применяется в популярном языке преобразования, ХЗГТ. Необходи- 
мость его применения в этом случае диктуется тем, что требуется различать теги, 
описывающие инструкции, и теги, описывающие данные (другими словами, ото- 
бражаемые элементы и те элементы, которые управляют выводом данных). 


Чуть позже вы познакомитесь с пространствами имен, использующимися в 
НТМЕ. Благодаря этим объектам в документ можно включать специальную раз- 
метку, например, уравнения — в обычные НТМГ-страницы. Язык Май МУ, (Һ@р:/ 
/Аммим.мЗ.огд/Ма/) выполняет именно эти функции. В листинге 7.1 демонстриру- 
ется, как к документу подключить язык Май МІ. и воспользоваться ним для под- 
держки пространств имен. 


Листинг7 .1. Документ со включенными пространствами имен 


<Нт> 

«роду хтіп< :ед= "ір: / /ини. м3 .ог8/1998/Ма&н/Маеёв МЕ "> 

<ћ1>Ві11уроб'ѕ Тһеоту</1> 

<> 

ТЕ 15 ме -Кпома аб сабѕ саппоё ре БекдеЯ еаѕі1у. Тһаб 15, еу до 
поб епа ёо ит іп а ѕікаісіі ше Рок агу ТероеВ оғ біле шпеѕѕ еу 
геә11у мапі бо. А саб ЕогсеЯ бо уоп іп а зікаіс. іле адаіпѕі 165 
111 Баз ап іпсүеаѕіто ргорар1] 10у, мһ діѕбапсе, оЁ деуіасіпо Ёкот 
Ее 1іпе јоѕі ёо ѕрібе уой, оімеп ру 1$ Ғогтџи1а: </р> 


<> 


<!-- РЕТ - 1/(х^2) —> 
<ед:пеб 
<есд:ті>Р</ес:ті><ес:то>=</ес:пто><есд:птп>1</ес:тпь<ес:то>-</ед:по> 
<ед:т#гас> 
<ед: тп>1</ед: тп> 
<аа:тзир> 
<еа: ті >х</еа:11> 
<ес:пп>2</ед:тп> 
</еа:твиар> 
</ед:тгас> 
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</ед: таїһћ> 


Теги с префиксом еҷ: являются частью пространства имен, определение кото- 
рого можно найти на \еб-узле по адресу Һір://Лу№3.015/1998/Маф/Мафмі. Эти 
теги определены в атрибуте элемента <Боду>. В результате использования про- 
странства имен браузер получает информацию о том, какие теги являются ориги- 
нальными тегами НТМГ, а какие — внешними. Браузер, воспринимающий язык 
МамМГ, обрабатывает квалифицированные элементы в соответствии с инструк- 
циями, предоставленными механизмом их форматирования, и не пытается приме- 
нить в этом случае обычный механизм обработки языка НТМГ. 


Некоторые браузеры не воспринимают теги Май М1. и отображают непредска- 
зуемые результаты. В этом случае одной из полезных утилит оказывается програм- 
ма, которая отыскивает и удаляет те ограниченные пространством имен элементы, 
которые могут некорректно интерпретироваться более старыми версиями процес- 
сора НТМГ. В следующем примере приведена программа, использующая модель 
20мМ2, которая разбирает документ и выбирает все элементы, имеющие префикс 
пространства имен. 


Первым делом программа разбирает файл: 


зе ХМЬ : ЕЧЬХМЬ; 

пу Эракзе = ХМЫгАБХМЕ->пем( ); 

пу 500с = Ѕрагѕег-ырагѕе ҒПе( 01 @АКСУ ); 

На следующем шаге программа находит элемент документа и запускает рекур- 


сивную подпрограмму, с помощью которой выполняется поиск ограниченных про- 
странством имен элементов. После этого программа выводит документ на печать: 


пу фтаһигі = 'ИЕёр://мми.и3 .огЕ/ 1998 /Ма+п/Маенмь '; 

пу $г00ї = 5а0с->десросштепсЕ1етепс; 

батр;ратае пѕе1єтѕ ( $гоої ); 

ргіпі $ӣос->бобігіпо; 

Следующая процедура находит узел элемента, проверяет, есть ли у него пре- 
фикс, связанный с пространством имен, и в случае наличия удаляет исследуемый 
элемент из списка содержимого родительского узла. В противном случае, проце- 
дура пропускает элемент и переходит к обработке его потомков: 

зі рое пѕеіетѕ { 

пу Ѕејап = ғ; 

теожтп ип1е$$ ( теғ ( бејап ) =~ /ЕШетейЕ/ ); 
1Е( Ѕе1атыргеѓіх ) { 
пу $рагепї = $е1ет- >рагепіМ№оде; 
$рагепї- > гемоуеСһі1а( Зем); 
} е1ѕії ( $е\лет->һаѕСһі\дМодеѕ ) { 
пу @сһі1агеп = ѕе1ет->дессһ 1аподеѕ; 


Ғохеасһ шу $сһі1а ( ёсһі1агеп ) { 
&олое пѕеіатѕ ( Һа ); 
} 


} 


Вы, наверное, заметили, что в рассматриваемую версию объектной модели доку- 
мента по сравнению с традиционным интерфейсом Ю0 М заложены некоторые ме- 
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ханизмы, присущие изначально языку Реті. Обращение к методу ве{Сн119по4е$ в 
контексте массива возвратило бы Реп-список вместо громоздкого списка № ойеі іѕї. 
Вызванный в скалярном контексте, этот метод возвратил бы количество дочерних 
элементов рассматриваемого узла, вследствие чего Моде! 1 515 не используется здесь 
вообще. 

Подобные упрощения — весьма обычны в мире Рег, поэтому не будем на них 
останавливаться. Следует только помнить о том, что они действительно просты по 
сравнению с обычным объектно-ориентированным протоколом. Конечно, сразу 
появляется надежда на использование всеми реализациями модели РОМ в языке 
Рег одних и тех же соглашений. Вопрос о разработке и принятии наиболее удоб- 
ных стандартов для списков рассылки рег|-хп] возник уже довольно давно. Сей- 
час обсуждается вопрос о том, как наиболее логичным образом внедрить ЗАХ2 
(модуль, поддерживающий пространства имен). х 

Мэтт Сержант предусмотрел в пакете ХМ: :1 1ЫХМі множество полезных меха- 
низмов. Класс Моде обладает методом Ғіпапойеѕ (), который в качестве аргумента 
использует ХРаіһ-выражения. Благодаря этому обеспечивается дополнительная 
степень гибкости при поиске узлов. Анализатор обладает опциями, которые контро- 
лируют точность его выполнения, определение сущностей и наличие нескольких 
значений для символов табуляции. Можно также выбрать другие специальные об- 
работчики, предназначенные для еще не разобранных сущностей. Исходя из опи- 
санных возможностей, можно прийти к выводу, что этот модуль превосходно удов- 
летворяет потребности программирования с применением модели РОМ. 


За пределами 
деревьев: ХРаіїпћ, 
ХОТ и некоторые 
другие вопросы 


В предыдущей главе были введены понятия, относящиеся к обработке ХМТ-доку- 
ментов как деревьев, находящихся в памяти. Они использовались довольно при- 
митивно, — все ограничивалось построением, обходом и модификацией отдель- 
ных частей деревьев. Это актуально в случае небольших, несложных документов и 
задач, но серьезная ХМІ -обработка требует более совершенных средств. В этой 
главе рассмотрены методы, позволяющие упростить, ускорить и повысить эффек- 
тивность обработки деревьев. 


Алгоритмы обхода деревьев 


Вначале рассмотрим алгоритмы обхода деревьев. В соответствии с названием, они 
обходят дерево, находя вершины в требуемом порядке. В результате программа 
упрощается, а процесс обработки сосредотачивается на уровне отдельного узла. 
Использовать алгоритмы обхода деревьев - это все равно, что иметь дрессирован- 
ную обезьянку, обученную лазить по деревьям и приносить кокосы. В этом случае 
вам не придется обдирать свои руки о кору деревьев, чтобы достать ценные плоды; 
все, что нужно сделать, - просверлить дыру в скорлупе и засунуть туда соломинку. 

Простейший вид алгоритмов обхода деревьев - итератор (иногда называется 
обходчик). Он может перемещаться по дереву в прямом и обратном направлениях, 
устанавливая ссылки на вершины, в соответствии с предписанными ему действи- 
ями. Идея продвижения по дереву состоит в установлении порядка вершин, в ко- 
тором они отображаются в представлении текста документа. Точный алгоритм ите- 
рационного процесса заключается в следующем: 


* если текущая вершина не задана, начать с корневой вершины; 
• если у текущей вершины есть потомки, перейти к первому из них; 


• если у текущей вершины есть вершина, имеющая с ней общего родителя, 
перейти к ней; 
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• если ни одна из этих ситуаций не имеет места, вернуться к списку предков 
текущей вершины и попытаться найти ту, чьи вершины, имеющие с ней об- 
щего родителя, остались необработанными. 


С помощью этого алгоритма итератор обойдет каждую вершинув дереве, что 
полезно в том случае, если требуется обработать все вершины в некоторой части 
документа. Этот алгоритм также можно реализовать рекурсивно, однако достоин- 
ство итеративной реализации состоит в том, что в процессе обработки можно оста- 
новиться между двумя вершинами и произвести какие-либо другие действия. 
В листинге 8.1 показано, как можно реализовать объект итератора для РОМ-дере- 
вьев. Сюда включены методы, применяемые как для продвижения по дереву в 
прямом и в обратном направлениях. 


Листинг8. 1 . Пакет ООМ-итераторов 
раскаде Хмі : :ромІ+егаќог; 


зар рем { 
гау $сТа$$ = ЅһіІЁЁ; 
пу 559 = {@ }; 
бзе1Е->{ №94е } = ипдеЕ; 
геіџп Б]ез$( $зе1ЁЕ, $с1а$з ); 


} 


# Продвижение по дереву на одну вершину вперед. 
т 


зи Еохмага { 
пу 53е1Е = 61; 


# Попытка спуститься на следующий уровень. 
1Е( $%ѕе1#->15 е1етепї апа 
Ѕѕе1Е->{ Моде }->реїЕігѕїсһі1а ) { 
Ѕѕе1#->{ Моде } = $зе1Е->{ Моде }->веїЕігѕісһі1а; 


# Попытка перейти к следующей вершине, имеющей общего 
# родителя, или к вершине, имеющей общего родителя 
# с поедком. 
} е\зе { 
\р11е( Ѕѕе1#->{ №ае )) { 
1Е( $зе1Е->{ №ае }->ачебМехЕеять та ) { 
$ве1Е->{ №94е } = $зе1Е->{ Моде }->деЕехё51011п9; 
геботп $ѕе1?->{ М№оде }; 


} 
$зе1Е->{ Моде } = $зе1Е->{ №ае }->деёРагепёМоде; 
} 
} 


Продвижение по дереву на одну вершину назад. 


ѕио Баскмага + 
ту $зе! = $11; 


# Перейти к предыдущей вершине, имеющей общего родителя 

# и спуститься к последней вершине его дерева. 

11( $зеМ->{ Моде }->деїРгеуіоиѕ5ірііпо ) { 
$зе!!->{ Моде } = $зе!!->{ Моде }- > реїРгеуїоиѕ51Ь1іпе; 
миНе( $зе!!->{ Моде }->деНазСпиа ) & 
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$ѕе1#->{ №08 } = $5е1#->{ №08 }->реїгаѕїсһі1а; 
} 


# Перейти вверх. 
} еве { 
$зе1Е->{ Моде } = $зе1Е->{ Моде }->чееРагереМ№ае; 
} 
тебато $ѕе1#->{ Моде }; 
} 
# Вернуть ссылку на текущую вершину. 
# 
заь поде { 
шу $5е1ї = з51Ее; 
тебато $ѕе1#->{ Моде }; 
} 


# Установить текущую вершину. 
# 
БОЬ геѕеб { 
пу( $5е1?, $поде ) =@_; 
фѕе1?->{ Моде } = $поде; 
} 


# Проверить, является ли текущая вершина элементом. 
# 


5 15 _е1емепї { 

шу $5е1ї = зһіғе; 

гесигп( $зе1Е->{ Мое }->деЕМ№одетуре == 1 ); 
} 


Код из листинга 8.2 представляет тестовую программу для пакета итераторов. 
Она выводит краткое описание каждой вершины в дереве ХМІ -документа в нача- 


ле в прямом, азатем в обратном порядке. 
Листинг 8.2. Тестовая программа, реализующая проверку пакета итераторов 


изе ХМ: : 00М; 

# Инициализация анализатора и итератора. 

шу $4от_рагзег = пем ХМЕ: : р0М: : Рагзег; 

ту $дос = $дот рагѕег->рагѕе?і1е( =һіҒ @АКСУ ); 
пу $16ег = пем ХМі : : О0МІ+егаїог; 

фібсег->геѕеї( $аос->аеБоситепеЕ1етепе ); 


# Отобразить все вершины с начала до конца документа. 
ргіпс "\пРОКМАКО5 : \п"; 
шу Ѕподе = ѕ$іёег->пойе; 
шу $1а5ї; 
иһі1е( Ѕподе ) { 
аезѕсгіре( Ѕподе ); 
51аѕі бподе; 
бпойе = $1{ег->Фогмага; 


} 
# Отобразить все вершины с конца до начала документа, 
ргіпс "\пВАСКИАКО$ : \п"; 
$1Еег->хгевее( $1а5ї ); 
дезсгіре( $іёег->пойе ); 
мһі1е( $1+ег->БасКиага ) { 
беѕсгібе( $ібег->пойе ); 
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Отобразить сведения о вершине. 


зар деѕсуіре { - 
пу Ѕподе = 616; 


1Е( хеЁ($поае) =- /Е1емейе/ ) { 
ріп 'е1епепі: ', зподе->чеМоаемене, "\п"; 
} е151?( хеҒ (Ѕподе) =- /Техе/ ) { 


реп "оег роде: У", $лоде->5е{Моде\уа1ие, "\"\п": 
} 
} 


Многие пакеты для деревьев предоставляют возможности автоматизированного 
обхода деревьев. В состав модуля ХМ! : : Е 19ХМЕ: : 3ойе включен метод іёегаїог (), 
который реализует обход вершин поддерева. При этом обработка каждой вершины 
осуществляется с помощью соответствующей подпрограммы. Модуль Паѓа: : 
бгоуе: : Міѕіїіог выполняет аналогичную функцию. 

В листинге 8.3 приведен код программы, которая использует автоматизирован- 
ную функцию обхода дерева для анализа команд обработки в документе. 


Листинг 8.3. Программа, реализующая анализ команд обработки 
иѕе ХМ: : Е1ЬХМЬ; 


пу $аат = пех ХМЕ; :.1ЫХМі ; 

пу $9ос = ЅдӢот->рагѕе Е1Т1е( 61 ЕЕ @АВСУ ); 
пу $досе1ет = $90с->5е%{Боситеп<Ететеп* ; 
ЅаӢосе1ет->1ібегаіог ( \&1па_Р1); 


оо ша РІ { 
пу $поде = э01 ЕС; 
уебахп ип1еѕ5( Ѕподе->подеТуре == &ХМЕ_РТ_МООЕ ); | 
ріп "Еола ргосеѕѕіпо іпѕігисііоп: ", $поде->подемате, "\п"; 


} 

Алгоритмы обхода деревьев крайне усложнены и могут применяться в задачах, 
которые включают обработку всего документа, поскольку они автоматизируют про- 
цесс перехода от вершины к вершине. Однако не всегда требуется посещать каж- 
дую вершину. Зачастую достаточно выбрать одну из группы или получить набор 
вершин, которые удовлетворяют некоторому критерию, например, имеют указан- 
ное имя элемента или значение атрибута. В этих случаях необходимо применять 
избирательный метод, что будет продемонстрировано в следующем разделе. 


Язык ХРаіћ 


Предположим, что в нашем распоряжении есть целая армия обезьян. Им дается 
команда: «Надо принести банановый напиток из кафе-мороженого на Массачу- 
сетс-Авеню севернее Роцег Запате». Не будучи особенно умными обезьянами, они 
пойдут и принесут любой попавшийся на глаза напиток, заставляя вас попробо- 
вать их все и принять нужное решение. Переобучите их, отправив в вечернюю 
школу изучать основы языка. Несколько месяцев спустя повторите команду. Те- 
перь обезьяны последуют вашим указаниям, идентифицируя необходимый пред- 
мет, и принесут вам именно то, что требуется. 

Мы привели описание класса задач, для решения которых предназначается 
ХРаќһ. Это средство реализует один из наиболее полезных методов поддержки 
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ХМЕ. Оно предоставляет достаточно наглядный интерфейс поиска вершин, по- 

этому не нужно самостоятельно разрабатывать программу их отслеживания. До- 

статочно указать тип требуемых вершин и ХРа отыщет их. Таким образом, с по- 

мощью ХМІ огромное, плохо организованное множество вершин превращается в 

четко пронумерованную картотеку, предназначенную для хранения данных. 
Рассмотрим ХМІ -документ, приведенный в листинге 8.4. 


Листинг 8.4. Файл предварительных настроек 


<рііѕї> 
<аісі> 
<Кеу>Ве?аи1їрігесїогу</Ккеу> 
<51гіпр>/иѕг/1осаї1 /Тоору</51гіпе> 
<Кеу>Кесепїроситепїѕ</кеу> 
<агау> 
<5ігіпе>/Џѕегѕ/робо/аосѕ/тепи. рат</ѕїгіпр> 
<5їгіпр> /Џѕегѕ/ 51 арру/равоба.ра?</ѕїгіпв> 
<51гіпЕ> /Еїргагу/досѕ/ВаБу.раї</51гїпр> 
< а 
<Ккеу>ВОСоюг</кеу> 
<5їгіпа>ѕаре</ѕїгіпа> 
</аісї> 
</рііѕї> 


Этот документ - типовой файл предварительных настроек программы с серией 
ключей данных и значений. Ничего особенно сложного в этом нет. Чтобы полу- 
читьзначение ключа ВССоЇог, необходимо найти элемент < кеу >, содержащий слово 
«ВОСо]ог», и перейти к следующему элементу - <$ гі по>. Наконец, считывается 
значение внутри в вершине текста. В ООМ можно проделать это способом, ука- 
занным в листинге 8.5. | 


Листинг 8.5. Программа, реализующая установку предпочтительного цвета 
ѕир де Басоог { | 
У @кеуѕ = $аос->реїЕ1етепіѕВуТарМћате( 'Кеу’ ); 
#огеасһ ту ФКкеу ( @кеуѕ ) { І 
і#( ФКеу->деїЕігѕїСһіа->одеіраїа ед 'ВССоюг ) { 
геїигп ФКкеу->деі\ехі5і0ііпо->деїраїіа; ` 
} 


геїигп; 

А | 

Написать одну такую подпрограмму довольно легко, но представьте себе, что 
будет в случае, если необходимы сотни подобных запросов. К тому же, она пред- 
назначена для обработки относительно простого документа, а вообразите, на- 
сколько все может усложниться при увеличении количества уровней документа. 
Неплохо было бы иметь короткий способ проделывать тоже скажем, в одной 
строке программы. Такую синтаксическую структуру было бы удобнее воспри- 
нимать, кодировать и отлаживать. Все это можно реализовать в данном случае. 

Язык Хра применяется с целью выражения пути к вершине или набору вер- 
шин влюбом месте документа. Он прост, выразителен и универсален (введен кон- 
сорциумом МЗС, группой разработчиков, создавших ХМГ.)!. Вы увидите, что он 


1 Рекомендации можно найти на мер-узле по адресу һр: / /ууу.№3.оге/ТК/храі/. 
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используется в ХЗГТ для сопоставления правил с вершинами и в Хроіпѓег-методе 
для связывания ХМІ -документов с источниками. Его также можно найти во мно- 
гих Реті-молулях, как будет показано далее. 

ХРаіһ-выражение называется путем размещения и состоит из нескольких ша- 
гов пути, которые его корректируют с учетом приближения к цели. Начиная с аб- 
солютной, известной позиции (например, корень документа), шаги продвижения 
по дереву документа направляются к вершине или к набору вершин. С точки зре- 
ния синтаксиса все это напоминает путь в файловой системе, в котором отдельные 
элементы разделяются символами слэша. 

Следующий путь размещения демонстрирует, каким образом в предыдущем 
примере находится необходимое значение цвета: 


/р1іѕ/аісї/Кеу [їехї () = 'ВССо1ог' ] /То11оміпр-5161іпр: : * [1] /їехі( ) 


Путь размещения обрабатывается, начиная с абсолютной позиции в документе 
и перемещаясь в новую вершину (или вершины) на каждом шаге. В любой момент 
поиска текущая вершина служит контекстом для следуюшего шага. Если следую- 
щему шагу соответствует множество вершин, ветви поиска и процессор поддер- 
живают набор текущих вершин. Рассмотрим, как будет обрабатываться представ- 
ленный выше путь размещения: 


• начинаем с корневой вершины (на один уровень выше корневого элемента); 


• переходим к элементу <рІ і51>, который является потомком текущей вер- 
шины; 


• переходим ‘к элементу< а ісі >, являющемуся потомком текущей вершины; 


• переходим к элементу<Кеу>, который является потомком текущей верши- 
ны и имеет значение ВС Соот; 


• выбираем следующий элемент, находящийся после текущей вершины; 
• возвращаем все текстовые вершины, принадлежащие текущей вершине. 


Из-за того что поиск вершины может принять ветвящийся характер при нали- 
чии множества подходящих вершин, иногда на некотором шаге необходимо до- 
бавлять условие проверки с целью ограничения приемлемых кандидатов. Допол- 
нительное условие проверки было необходимо на отборочном шаге для элемента 
<кеу >, когда подходило множество вершин. В результате добавилось условие про- 
верки, требующее, чтобы элемент имел значение ВССо|юг. Без проверки были бы 
получены все вершины текста для всех вершин дерева, имеющих.общего предка, 
непосредственно следующих за элементом < Кеу>. 


Следующий путь размещения подходит для всех элементов < Кеу > вдокументе: 

2156 /сасе/Кеу | 

Различные виды условий проверки дают булевой ответ «истина/ложь». Мож- 
но проверить позицию (когда вершина есть в списке), наличие потомков и атрибу- 
тов, произвести числовые сравнения и все виды булевых выражений, использую- 
щих операции И и ИЛИ. Иногда проверка состоит только из номеров, которые 
являются кратким обозначением для указания индекса в списке вершин, поэтому 
проверка [1] означает «остановиться на первой подходящей вершине». 

В квадратных скобках можно компоновать различные виды проверок совмест- 
но с булевыми операциями. В качестве альтернативы можно соединить проверки 
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с наборами скобок, выступающих в роли оператора И. Каждый шаг подразумевает 
проверку, в результате которой сокращается дерево поиска тупиков. Если на ка- 
ком-либо шаге обнаруживается нулевое количество подходящих вершин, то соот- 
ветствующее этой скобке действие поиска отменяется. 

В соответствии с результатами проверки булевых выражений можно сформи- 
ровать путь размещения с направлениями, которые называются осями. Ось напо- 
минает стрелку компаса, указывающую процессору направление для перемеше- 
ния. Вместо направления, заданного по умолчанию, которое опреедляет спуск от 
текущей вершины к ее потомкам, можно двигаться в направлении, соответствую- 
щем предку и предшествующим элементам или вершинам дерева, имеющих обще- 
го предка. Ось записывается в виде префикса к шагу с двойным двоеточием (::). 
В предыдущем примере использовалась ось Го 110и 18-5161 1т $ для перехода от 
текущей вершины к ее ближайшей соседке. 

Шаг не ограничивается обработкой элементов. Можно указать различные виды 
узлов, включая атрибуты, текст, команды обработки и комментарии, или оставить 
его настраиваемым с селектором для любого типа вершины. Тип вершин можно 
указать по-разному, некоторые из них представлены в таблице: 


Символ Соответствующий объект 
пойе() Любая вершина 
ќехї () Вершина текста 
е1етепї: : оо Элемент, который называется їоо 
Тоо Элемент, который называется їоо 
аїігібиёе: : оо Атрибут, который называется їоо 
@тоо Атрибут, который называется ѓоо 
@* Любой атрибут 
А Любой элемент 

Этот элемент 
са Элемент-родитель 
/ Корневая вершина 
/* Корневой элемент 
// ?оо Элемент їоо на любом уровне 


Поскольку наиболее вероятно, что на шаге пути размещения будет выбран эле- 
мент, то по умолчанию тип вершины ~элемент. Но есть причина, почему следует 
использовать другой тип вершины. В нашем примере путь размещения использо- 
вался методом ёехї() для возвращения только вершины текста для элемента 
<уа1ие>. 

Большинство шагов соответствуют относительным локаторам, поскольку они 
определяют, куда переходить в отношении предыдущего локатора. Хотя пути раз- 
мещения включают большинство соответствующих локаторов, они всегда начина- 
ются с абсолютного локатора, описываюшего определенную точку в документе. 
Этот локатор встречается в двух разновидностях: 14 (), который начинается с эле- 
мента с известным атрибутом Ш, и гоої (), который начинается с корневой вер- 
шины документа (абстрактная вершина, являющаяся предком элемента докумен- 
та). Зачастую можно увидеть сокращение "/", начинающее путь и указывающее, 
что использовался гоої (). 
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Теперь, когда обезьян научили понимать основы языка ХРаёћ, перейдем к Реті. 
Модуль ХМС :ХРаїћ, написанный Мэттом Сержантом (Май Ѕегвеапё), в рамках 
популярной версии ХМІ: : И ЕХМІ, - это вполне достойная реализация языка ХРаѓћ. 
В листинге 8.6 приведена программа, которая принимает два аргумента в команд- 
ной строке: файл и путь размещения ХРа. Она выводит на печать текстовое зна- 
чение всех вершин, которые соответствуют пути. 


Листинг8.6. Программа, использующая ХРаћ 


и5е ХМ: : ХРаїћ; 
оѕе ХМі : : ХРаїћ: : ХМІРагѕег; 


# Создать объект для разбора файла и Храїһ-запросов полей. 
шу $храїһ = ХМЕ: :ХРаїһ->пем( Е11епаше => 516 @АКСУ ); 


# Использовать путь из командной строки и вернуть 
# список соответствий. | 
ту $пойеѕеї = $хра{п->11п49( $ИГЕ @АВбУ ); 


# Отобразить каждую вершину в списке, 
Ғогеасһ ту $поде ( $подезе{->де{ подеііѕї ) { 

ргіпі ХМІ::ХРаїћ::ХМІРагѕег::аѕ ѕігіпо( Фподе ) , "\п"; 
} 


Это программа устроена достаточно просто. Теперь необходим файл данных. 
Его код приведен в листинге 8.7. | 


Листинг8.7. Файл данныхХМЕ 


<?хт1 уег51оп="1.0"?> 
<!БОСТУРЕ 1иуейбоку [ 
<ІЕМІТТҮ роіѕоп "<поїе>дапрег: роіѕопоиѕ ! </поїе>" > 
<!ЕМТТГУ епдапо "<побе>епдапдетеЯ ѕресіеѕ</побе>"> 
]> | 


<!-- Инвентарный перечень Е1хуепиюо Атфогенла —> 
<1пуепфогу дафе=”26001.3.4"> 
<сасесогу буре="Етее"> 
<ісеп 19="284"> 
<папе ѕїу1е="1аїіп">Сагуа о1арга</папе> 
«папе ѕіу1Іе="соппоп">Ріспие Ніскогу</пате> 
<1осаїіол>еаѕї дџиайгалр1е</1осаїіоп> 
</сет> 
<1 {ет 14="222"> 
«папе ѕбу1е="1асіп">Тохісойепдгоп уегпіх</папе> 
<папе ѕїу\е=" соттоп" >Роіѕоп битас</папе> 
<1осаїіоп>меѕї рготепадбе</ 1 осаїіоп> 
&роіѕоп; 
</іёет> 
</сабедогу> 
<саіесогу буре="я6таю"> 
<ібеп 18="210"> 
<папе ѕїу1е="1аїіп" >Согпиѕ гасетоза< /пате> 
<папе ѕїу\е=" соттоп" >бгау Воёмоо4< / пате> 
<1осабіоп>ѕолћ 1анп</1осаїіоп> 
</сет> 
<ісеп 18="104"> 
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<пате веу1е="1абіп">А1тиз гироѕа</пате> 
<пате ѕбу1е="сашоп">Ѕреск1еа А1аег</папе> 
<Тосаїіоп>еаѕї диаагапв1е</1осаїїоп> 
&епаапа; . 
</ігет> : 
</саіедогу> 
</іпуепсогу> 
В ходе первого тестирования используется путь /іпуепќогу/саѓерогу/іќет/пате: 


> дгабБег.р! ааїќа.хті "/іпуепїогу/сатевогу/іїет/ пате" 
<пате ${у1е="1а{1п">Сагуа дјабга</пате> 

чате Ѕуе="сотгтоп">Рідпи Н1сКогу</пате> 

<пате ѕїу1е= "1аї іп" >Тох1содепагоп уегп1х</паме> 
«ете ${у1е="соттоп" >Ро150п' 

<пате ѕїуіе="Іаїп">Согпиѕ гасетоза</паме> 

<паме $+у1е=" соттоп" >бгау ровнооӣ</пате> 

<пате ЗУе=“айтп">Ати$ пюоѕа</пате> 

«ате ѕіу1е=" соттоп" >5реск1еа Аде</пате> 


Находится и выводится на печать каждый элемент <пате>. Будем более конк- 
ретными при указании пути /іпуепёогу/саѓедогу/ќет/пате[@ѕ'уіе='Іабп"]: 

> дгаббег.р! даіа.хті "/ іпуепіогу/саїерогу/ іїет/ пате [@5їу1е= '1аїіп']" 

<пате ЅіуІе="Іайп">Сагуа в1арга</пате> 

<пате ЅїуІе="Іаїп">Тохісоаепагоп уегпіх</пате> 

«өте ${у1е="Та{1п">Согпи$ гасетоза</паме> 

<паше Ѕїуіе="Іаїіп">Аіпиѕ гибоза< / пате> 

Теперь используем атрибут Ір как начальную точку для пути //ќет[@і9='222']/ 
поќе. (Если этот атрибут определен в объявлении ОТО, можно использовать путь 
14(222')/лое. В данном случае этого не выполнялось, но подобный альтернатив- 
ный метод достаточно хорош.) 


> скабег.рІ даба.хті "//іхет[@10='222'}/поїе" 
<поѓёе>дӢапвег: роіѕополѕ!</побе> 


Как извлечь теги элементов? Чтобы это сделать, нужно использовать команду: 


> агаббег.р1 ааБа.хи] "//1 іет[@1='222']/поїе/їехї( )" 
даподег: роіѕопоиѕ! 


Когда эта инвентаризационная информация обновлялась последний раз? 


> огабоег.рі адаба.хті "/іпуепіогу/@даѓе" | 
ааќе="2001.9.4" 

Благодаря ХРа{ можно многое сделать! Вот путь, который проходит по дереву 
глупая обезьяна: КЕКИ 

> рі даба.хти "//* [@14=' 104 ' ] /рагепї: : */ргесед1т&-$1611п5: : */ 

сћі1а: : * [2] /пате [ пої (@51у1е= '1аїіп') ] /поде( ) " 

Роіѕзоп Затес 

Обезьяна начинала с элемента с атрибутом 14=' 104', поднималась уровнем 
выше, перепрыгивала на предыдущий элемент, отступала на второй элемент-пото- 
мок, находила < пате >, атрибуту типа которого присваивалось значение '\аїіп', 
и перепрыгивала к потомку элемента, оказывающегося вершиной текста со значе- 
нием Роіѕоп Ѕитас. 

Отсюда видно, как следует использовать Храй-выражения, чтобы выбрать и вер- 
нуть набор вершин. Рассмотренная реализация является более мощной. Оригиналь- 
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ный модуль Майкла Родригеса (Масве! Койгівџех), ХМІ: :Ти1&, реализован в духе 
Рет] с точки зрения применения ХРаһ-выражений. Здесь используются хэш-дан- 
ные с целью преобразования в подпрограммы. Благодаря этому могут реализовы- 
ваться функции, автоматически вызываемые для определенных типов вершин. 

Приведенная в листинге 8.8 программа иллюстрирует, как это все реализовано 
на практике. При инициализации объекта ХМІ: : Ти15 можно установить группу 
обработчиков в хэше, где ключами будут ХРа-выражения. На протяжении этапа 
разбора эти обработчики вызываются для соответствующих вершин, аналогично 
тому, как строится дерево. 

Рассмотрим листинг 8.8. Отметим, что символы «коммерческое аї» (@) теряют- 
ся. Это происходит потому, что наличие символа @ может привести к путанице с 
ХРай-выражениями, существующими в Регі-контексте. В ХРаһ @Фоо ссылается 
на атрибут, который называется оо, а не на массив с названием оо. Об этих осо- 
бенностях следует помнить, когда рассматриваются соответствующие примеры из 
этой книги и пишутся ХРаіһћ-программы для Рег; следует избегать символов @, 
поэтому Рей не пытается видоизменять массивы в середине выражений. 


Если программа выполняет столько действий с массивами Реті и ссылками атри- 
бутов ХРаѓћ, что не понятно, какой символ @ кчему относится, то рассмотрите ссыл- 
ку на атрибуты без сокращений, используя ось «атрибута» ХРаїћ: аїїгіриѓе: : Ёоо. 
Это порождает проблему двойных двоеточий и их различной семантики в Реп и 
ХРаќһћ. Тем не менее, поскольку в ХРа существуют несколько жестко запрограм- 
мированных осей, и они всегда изображаются с применением строчных символов, 
их легче отличить с первого взгляда. 


Листинг 8.8. Иллюстрация действий обработчиков 
и5е ХМі : :Тмїр; 


# Буферы для хранения текста. 
пу $саїри? = ''; 
пу $1 ЁемЬи? = ' '; 


# Инициализация анализатора с обработчиками для 

# оперирования с вершинами. 

пу Обида = пер ХМ: :Тмів( ТитвНапд1ег$ => { 
"/іпуепіогу/саседогу" => \&5сабедогу, 
"пате { \@5їу1е= '1аїіп']" => \&Лаїїіп папе, 
"лате [\@5+у1е=' соттоп']" => \&соттоп_пате, 
"саіерогу/іїем" => \&ібет, 

}): 


# Разбор, обрабатываются попадающиеся по пути вершины. 
5еита->рагзеЕ11е( з01ЕЕ @АВСУ ); 


# Обработка категории элемента. 
зар саёедогу { 


пу ( бегее, $е]ет ) = @_; 
ре1пЕ "САТЕСОВУ: ", $е1ет->аїї( '#уре' ), "\п\п", бсаббаЕ; 
бсаббаЕ = ''; 


} 


# Обработка объекта элемента. 
зир ібет { 
пу( $ёгее, Ѕе1еп ) = а; 
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$саёри? .= "ет: " . беает->абе( '19' ) . "\п" . $Ч4етьие . "\0"; 


$ісетри? ; 


} 


# Обработка имени, набранного с применением латинских букв. 
зор 1аёіл_пате { 

му( $Егее, $е1ет ) = @_; 

$іёетьи? .= "Таб1п пате: " . Ѕе1ет->ьбехі . "\п"; 
} 


# Обработка общего имени. 
1016) соттоп __пате { 
ту( $їгее, $е1ет ) = @_; 
фіїетри? .= "Сопот пате: " . Ѕ$еІет->бехі . "\п"; 

} 

Эта программа получает файл данных, как показано в листинге 8.7, и выводит 
отчет. Отметим, что поскольку обработчик вызывается только после завершения 
полного построения элемента, общий порядок вызовов обработчиков может ока- 
заться не тем, который ожидался. Обработчики для потомков вызываются до об- 
работчиков для предков. По этой причине необходимо буферизовать вывод и клас- 
сифицировать его в соответствующий момент. 

Результат выглядит следующим образом: 


САТЕСОВУ: хее 


Тсап: 284 
Іаібіп папе: Сахуа сЛабхга 
Сатоп папе: Ріспоь Ніскоу 


Ібсап: 222 
Іабіп папе: Тохеодбейбиой уем 
Сашоп папе: Роіѕзоп Эжас 


САТЕЗОВУ: эриоб 


сет: 219 
Іабіп пате: Соилие гасетоѕа 
Соптиса папе: Скау 


Тсат: 104 
Гафт пете: А1пиѕ гидоѕа 
@лттл пате: Ѕрескіеа д1аег 


С помощью ХРа чрезвычайно упрощается задача поиска и описание типов 
обрабатываемых вершин в документе. Существенно сокращается объем создавае- 
мой программы, поскольку остается только обойти дерево, чтобы проверить раз- 
личные части. Кроме того, все это легче прочитать, чем запрограммировать. И по- 


скольку ХРаїһ, по сути, представляет стандарт, он может применяться в самых 
различных модулях. 


ЯзыкХТ 


Если ХРа рассматривается с позиций обычного синтаксиса выражений, то 
ХЅІТ - это механизм, реализующий подстановку шаблона. Язык ХЅІТ - это ос- 
нованный на ХМІ. язык программирования, описывающий преобразования раз- 
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личных типов документов. С помощью ХЗГ.Т можно делать многое, например, опи- 
сывать, как преобразовать любой ХМТ-документ в НТМІ -код или свести в табли- 
цу совокупность данных в таблице ХМГ-формата. На самом деле, возможно, даже 
не понадобится программировать на Реті или каком-либо другом языке програм- 
мирования. Все, что будет необходимо, - ХЅІТ-сценарий и один из множества 
механизмов преобразования, доступных для ХЗ Т-обработки. 


ИСТОКИХЅІТ 
Язык ХЯТ основан на языке стилей ХМІ: Тгапѕѓотпайопѕ (преобразования). Название гласит, 
что в данном случае мы имеем дело с компонентом языка стилей ХМІ (ХМЕ Зе Гаподиаде, ХЅ0), 
предназначенного для выполнения задач по преобразованию входных данныхХМЕ в специальный 
формат, называемый Х-РО (РО основан на « объектах форматирования»). Формат ХЅ-РО 
включает как содержимое, так и команды, выполняющие вывод информации на экран. 


Хотя аббревиатура ХУ. является составной частью аббревиатуры рассматриваемого языка, 
ХЅ7— нечто большее, чем просто этап форматирования; он является важным инструментом 
ХМЕ-обработки, который упрощаетпроцесс преобразования одной разновидностиХМЁЕ вдругую 
или преобразование ХМІ в текст. По этой причине комитет МЗС (который также является 
творцом ХУЕТ) разработал рекомендации для этого языка задолго до того, как был определен 
формат ХЗ. в целом. 

Ознакомиться со спецификациями и найти ссылки на учебники по ХТ можно на меб-узле 
НЫр:/ ими м3 .ого/ТВУХЕ. 


ХЗГТ-сценарий преобразования является ХМГ-документом. В основном он со- 
держит правила, которые называются шаблонами и указывают на то, как следует 
обрабатывать отдельный тип вершин. Обычно шаблоны выполняют две вещи: опи- 
сывают то, что необходимо получить в результате, и определяют, как следует вы- 
полнять обработку. 

Рассмотрим сценарий, представленный в листинге 8.9. 


Листинг8.9. Таблица стилей ХТ 
<х51; ѕ=їу1еѕћһееї 
хт1т5 : х51="НЕЕр: //мим. м3. 0г6/1999/Х51 /ТгапѕТогт" 
уегѕіоп="1.0"> 


<х51:; їетр1аїе таїсһ="Һті"> 
<х$1:{ехЕ> Те: </хз[:{ехЕ> 
<хѕі:уаіие-о? ѕе1есї="һеаа/?ії1е"/> 
<х$1 : арр1у-фетрТа{е$ ѕеіесі="броау"/> 

</х$1 : їетмр1аѓёе> 

<х51: їетр1аїе таїсһ="роау"> 
<х51:арр\у-іетр1аїеѕ/> 

</х51: їетр1аїе> 

<х51: тетр1аїе таїсһ="ћ | һ2 | Һ3 | һ"> 
<х$1:{ех{>НеаЧ: < /хѕ1:їехї> 
<х51:уа1ие-о? ѕеіесі="."/> 

</х51: їетр1аїе> 


<хѕ1: ёетр1аїе таїсһ="р | Ыоскаиоїе | 1і"> 
<х51:іехі>Сопіепї: </х$|:1ех{> 
<хѕі:маіие-о? ѕеіесі="."/> 
</х51: їемр1аѓе> 
</х51:ѕїуІеѕһееї> 


С помощью этого сценария преобразования НТМІ -документ перекодирует- 
ся в АЗСП-коды с включением некоторых особых меток в тексте. Каждый эле- 
мент <х$1 :їетр1аїе> – этоправило, которое соответствует части ХМГ-документа. 
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Его содержимое включает команды для Х5Г.Т-процессора, описывающие, что не- 
обходимо отобразить на экране. Директивы вида <х$1:арр1у-етр1айе$> управ- 
ляют обработкой других элементов (как правило, потомков). Мы не будем вда- 
ваться в подробности синтаксиса языка ХЅІ7Т, поскольку читателю доступны все 
книги по этой теме. Мы намерены показать, как можно сочетать ХЅІТ с Рей для 
выполнения эффективного прослеживания ХМГ-документов. 

У читателя может возникнуть вполне логичный вопрос: «Зачем для преобразо- 
вания ХМІ. понадобилось использовать другой язык, если, как известно, можно 
делать то же самое с помощью Рей?» Правильно, средствами ХЅІТ можно сделать 
все то, что достигается с помощью Реп. Его ценность заключается в простоте. Язык 
ХЅІТ можно изучить за несколько часов, а чтобы освоить Рей, понадобится гораздо 
больше времени. Исходя из опыта разработки программного обеспечения для ХМГ, 
мы считаем удобным, использовать ХЅІТ в качестве конфигурационного файла, 
который не мог бы самостоятельно поддерживать ни один программист. Таким 
образом, вместо того, чтобы рассматривать ХЗГТ как конкурента Рег, считайте 
его дополнительной технологией, которая при необходимости может обеспечить 
доступ посредством Рег. 


Как Регі-разработчики используют в своих программах возможности ХЅ171? 
В листинге 8.10 показано, как выполнить ХЗ Т-преобразование в документе, ис- 
пользуяХМі : : 1 15Х5 ІТ - интерфейс Мэтта Сержанта, ориентированный на быстро- 
действующую библиотеку СМОМЕ (имя библиотеки — 1ЬХ8І7Т) как одного из 
нескольких ХЅІТ-решений, доступных среди набора инструментов в сети СРАМ№'. 


Листинг 8.10, Программа выполняет ХЗЕТ-преобразование 


иѕе ХМ : : 110х517; 
и5е ХМі : : 1 1ЫХМІ; 


# Аргументы для этой команды - это таблица стилей и 
# файлы-источники. 
$${у1е_Т11е, @ѕоигсе Ғі1еѕ ) = @АВСУ; 


# Инициализация анализатора и Х51Т-процессора. 

пу Ѕрагѕег = ХМЁ: : Е1ЬХМЕ->пем( ); 

пу $х$51е = ХМЬ::010Х51Т->пем( ); 

пу ф5їу1еѕћееї = $х511->рагѕе_ а? {11е( Ѕ5ѕбу1е Ғі1е ); 


# Для каждого файла источника выполняется разбор, 

# преобразование и вывод на печать результата. 

Ғогеасһ пу $Е11е ( @$о0игсе_111е$ ) { 
пу Ѕѕоџгсе дос = Фраг5ег->раг5е_111е( Ѕѕоџгсе Ғі1е ); 
пу $геѕиїії = Ѕѕіу1еѕћееё->бгапѕҒогт( ѕ$ѕоогсе дос ); 
реше $5бу1еѕһееё->ооброб эбгіпо( фгеѕиїї ); 

} 


Преимущество этой программы состоит в том, что она анализирует таблицу сти- 
лей лишь один раз, сохраняя ее в памяти для повторного использования при работе 
с другими документами-источниками. Впоследствии, при необходимости, будет 
доступно дерево документа для дальнейшей обработки в случае: 


1 Доступны также и другие инструменты, например, Рег-модуль ХМІ: :ХЅІТ, а также модуль 
ХМЕ : : ЅабХоїгоп, основанный на С-библиотеках Ехраѓ и За огоп (последняя библиотека фактически 
является ХЅІ Т-библиотекой, разработанной фирмой Сіпвег АШапсе: ћ№р://уум.діпдега!ї.сот). 
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• выполнения заключительной и предварительной обработки текста докумен- 
та с процедурами поиска-замены; 


• выделения части документа для дальнейшего преооразовани ТОЛЬКО ЭТОЙ 
части; 


• запуска итератора для обработки некоторых вершин дерева, что затрудни- 
тельно в случае с ХЗГТ. 


Существует бесчисленное количество возможностей и, как это бывает в Реп, в 
любом случае можно использовать несколько способов. 


Оптимизированная обработка деревьев 


Большой недостаток при использовании деревьев для ХМІ -обработки проявля- 
ется в огромных затратах памяти и процессорного времени. Возможно, это не так 
очевидно в случае небольших документов, но становится заметным, как только 
количество вершин в документах вырастает до многих тысяч. Обычной книге, име- 
ющей несколько сотен страниц, могут соответствоватьдесятки тысяч вершин. Каж- 
дая из них требует выполнения размещения объекта, реализуемого в виде процес- 
са, который занимает значительное время и требует много памяти. 

Хотя, возможно, для выполнения задачи не потребуется строить все дерево. Мо- 
жет потребоваться только незначительный сегмент дерева, внутри которого будет 
успешно выполнена вся необходимая обработка. В этом случае следует восполь- 
зоваться преимуществом оптимизированного метода разбора, включенного в состав 
модуля ХМІ: :Ти1в (напомним, что этот модуль рассматривался ранее в разделе 
"ХРа{й"). Этот метод позволяет заранее установить, какие части (или «ветви») де- 
рева будут обрабатываться для того, чтобы только эти части строились. В резуль- 
тате получаем гибрид дерева. В этом случае при обработке событий достигается 
оптимизация производительности по скорости и времени. 

В модулеХМі : : Тмі = выполняются три режима операций: традиционный режим 
дерева, похожий на тот, который рассматривался до настоящего времени; режим 
«кусок», при реализации которого строится все дерево, но втекущий момент време- 
ни хранится в памяти только фрагмент дерева (отчасти напоминает память со стра- 
ничной организацией); режим со множеством корней, когда строятся несколько 
выбранных ветвей дерева. 

В листинге 8.11 продемонстрированы возможности модуля ХМЕ: :Тм№іс в < ку- 
сочном» режиме. Данными для этой программы является книга ОосВооКс несколь- 
кими элементами <сһарѓег>. Настоящие документы могут достигать огромного 
размера, иногда сотен Мбайт и более. Программа разбивает обработку по главам 
для того, чтобы требовался только фрагмент области памяти. 

Листинг8.11. Программа разбиения дерева на куски 

и$е ХМі : :Тмір; 

# Инициализация ветви, разбор и отображение 

# полученной ветви. 

ту ФМО = пен ХМЕ: :Тнів( ТнівНапа1егѕ => { сћарїег => \&ргосеѕѕ сһарїег }); 


$смів->рагѕе?і1е( ЗИ @АКбУ ); 
$+мів->ргіпї; 


# Обработчик главы: обрабатывает главу, а затем выполняет 


168 Глава 8 + За пределами деревьев: ХРа, ХІТ и другие вопросы 


# очистку. 
596 ргосезз_срареек { 
ту( бЕгее, $е1ет ) = @_; 
&ргосеѕ5 е1етепї ( Ѕејега ); 
бЕгее->Е1аз6 џр ёо( $еет ); # Устранение этой строки 


Приводит к напрасным затратам памяти. 


Добавляет '#оо' к имени элемента. 

оло ргосеѕ5_е1етепї { 

пу фе1ет = ѕһі#Ё; 

$е1ет->5е1_51( Ѕе1ет->0і . 'Ғоо' ); 

шу @сһі1агеп = ѕе1ет->сһі1агеп; 

Ғогеасһ му $сһіла ( @сһі1агеп ) { 
пех 1Е( $с1]9->91 ед '#РСрАТА' ); 
&ргосеѕ5 е1етепї( 5сіп11а ); 


} 


Программа изменяет имена элементов, добавляя к ним строку "Ёоо". Изме- 
нение имен - это лишь пустяковая работа, необходимая для того, чтобы прокон- 
тролировать использование памяти. Обратите внимание на строку в функции 
ргосе$$ _спартег(): 


$Егее->Т1и$п_ир_+0( Феет ); 


Благодаря этой команде экономится память. Без нее было бы построено все 
дерево, которое хранилось бы в памяти до тех пор, пока документ не был выве- 
ден на печать. Но, когда она вызывается, дерево, построенное до данного элемен- 
та, удаляется, а его текст выводится (называется очистка). Процент использова- 
ния памяти никогда не превышает величину, требуемую для хранения самой 
большой главы в книге. 

Чтобы проверить эту теорию, запустим программу вместе с документом, объем 
которого составляет 3 Мбайт. Сначала заключите эту строку в знаки комментария, 
затем раскомментируйте ее. Без применения очистки область динамической па- 
мяти программы увеличилась до 30 Мбайт. Удивительно, как много памяти необ- 
ходимо объектно-ориентированному процессору деревьев; в нашем случае в де- 
сять раз больше, чем размер файла. Но с применением очистки объем требуемой 
памяти программы колебался вокруглишь нескольких Мбайт; экономилось около 
90% системных ресурсов. В обоих случаях было построено все дерево, поэтому 
суммарное время обработки оставалось тем же. Чтобы экономить время централь- 
ного процессора так же, как и память, необходимо использовать режим со множе- 
ством корней. 

Многокорневой режим реализуется до выполнения анализа корней создавае- 
мых ветвей. Значительно экономятся время и память, если ветви по размеру мень- 
ше, чем весь документ. В примере «кусочного» режима не многое можно было бы 
сделать, чтобы ускорить процесс, поскольку сумма элементов <спарег> прибли- 
зительно такая же, как размер документа. Поэтому рассмотрим пример, который 
лучше иллюстрирует многокорневой режим. 

Программа, представленная в листинге 8.12, считывает документы ЮосВоок и 
выводит заголовки глав, то есть оглавление. Чтобы получить эту информацию, не- 
обходимо построить дерево для всей главы, выраженное записями ХРаќћ, «глава- 
заголовок». 
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Листинг 8.12. Разветвленная программа 
иѕе ХМЕ: :Тиір; 


ту Ф109 = пем ХМЕЛ\МО( ТнірКооїѕ => { 'сһарќег/їіёле' => \&оиїриї, 11е }); 
$@нів->рагѕе?і1е( ЗП «©Э/ ); 


зи оиїриї {Ще { 

му( $1гее, $е1ет ) = @_; 

ріп фе1ет->їехї, "\п"; 
} Е 
Здесь ключевая строка - это строка, которая содержит ключевое слово Тміз Кооѓѕ. 
Она принимает хэш-данные обработчиков, а процесс ее функционирования весьма 
напоминает процесс выполнения обработчиков Тіз Напаіегѕ, рассмотренных ра- 
нее. Отличие состоит в том, что вместо построения всего дерева документа, про- 
грамма строит только те деревья, чьи корни являются элементами <їі #1е>. Это 
небольшой фрагмент целого документа, поэтому можно ожидать, что будет сэко- 
номлено больше времени и памяти. | 

Насколько больше? Запустив программу на основе тех же тестовых данных, 
видим, что использование памяти едва достигает 2 Мбайта, а общее время обра- 
ботки - 13 секунд. Сравните этот результат с 30 Мбайтами памяти (размер, обяза- 
тельный для построения всего дерева) и суммарным временем, необходимым для 
получения заголовков. Экономия ресурсов существенная, как памяти, так и вре- 
мени центрального процессора. 

В результате применения модуля ХМі:: Тм е может достигаться значительный 
рост производительности программ обработки деревьев, но необходимо знать, в 
каких случаях помогает разбиение дерева на куски, а в каких - применение много- 
численных корней. Вы не сэкономите много времени, если сумма ветвей почти 
такая же, как размер документа. Разбиение дерева на куски бесполезно до тех пор, 
пока куски существенно меньше, чем сам документ. 


В $ 5, 5ОАР 


и некоторые другие 
ХМІ-приложения 


В этой и последующей главах реализуется практическое приложение изложенной 
ранее теории. Здесь начинается «царство» ХМІ-приложений, предназначенных 
для обработки документов, причем в роли фундамента выступают анализаторы. 
Не удовлетворяясь указанием элементов и атрибутов, «живущих» лишь один день, 
эти инструменты высокого уровня «расшифровывают» значение всей структуры. 
При этом используются встроенные в данные инструменты директивы. 

Если упоминаются ХМГ-приложения, имеются в виду форматы ХМГ-доку- 
ментов, а не компьютерные программы (приложения другого вида), предназна- 
ченные для обработки этих документов. Обратимся к некоторым примерам. Пред- 
положим, что вам встретилось утверждение следующего вида: «ХМГ-приложение 
ОтеепМопКеуМТ, обеспечивает семантическую разметку для зеленых мартышек». 
Посетив начальную страницу этого проекта по адресу ПИр://\м\\\.тееттопКеу- 
тагкир.сот, мы найдем документацию по форматам, примеры документов, ре- 
комендации по применению, документы ОТО либо схемы, применяемые для 
проверки документов ОгеепМопкеуМГ, а также интерактивные инструменты 
проверки достоверности. Все это укладывается в определение ХМГ-приложения. 

Предметом рассмотрения этой главы являются ХМГ-приложения, которые за- 
нимают почетное место в качестве общедоступных Рей-модулей. 


ХМЕ-модули 


Термин ХМГ -модуль на самом деле носит локальный характер и отличается от Рег- 
модулей в сети СРАМ, обеспечивающих отсылку электронной почты, обработку 
изображений либо реализующих компьютерные игры. Однако и в этом случае вам 
предоставляется достаточно широкий выбор возможностей. До сих пор производи- 
лось исчерпывающее исследование Реті-расширений, с помощью которых выпол- 
няются общие операции по обработке ХМ Г-документов, но не рассматривались ка- 
кие-либо дополнительные вопросы. В вашем распоряжении оказались фрагменты 
бессодержательного ХМГ-кода, судьбу которых еше предстоит решить. Многие при- 
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меры, рассматриваемые в книге, фактически являются программами, выполняющи- 
ми следующее: вызывается обрабатывающий документ ХМГ-анализатор, затем со- 
ответствующим образом изменяются значения элементов и атрибутов. 

Возможности рассматриваемых здесь модулей превосходятто, что может обес- 
печить обобщенное семейство модулей, выполняющее синтаксический разбор и 
обработку, которое создается на основе одного из анализаторов. Эти модули под- 
держивают АРІ, с помощью которых обеспечивается привязка к исходному ХМІ- 
коду с выделением методов и процедур, специфичных для реализуемого ХМГ- 
приложения. | 

Рей-модули, обладающие признаками ХМТ-приложений, можно разделить на 
три класса. В этой и последующей главах будет рассмотрен пример каждого из 
них, а в следующей главе вы сможете сами разработать соответствующий модуль. 

Модули-помощники, как правило, наиболее простые и компактные. Зачас- 
тую они являются более компактными, чем оболочки исходных ХМГ-процессо- 
ров, но их важность поистине неоценима. И эта ценность наглядно проявляется 
в том случае, когда требуется разработать несколько программ, выполняющих 
операции считывания и записи для ХМГ-документа с определенным формати- 
рованием. Модуль-помощник поддерживает общие методы, благодаря чему про- 
граммист может не заботиться о соблюдении формата документов приложений 
или формальной корректности генерируемых выходных данных. 


Категория ХМІ-помощников, облегчающих процесс программирования, опи- 
сывает Регі-расширения, которые используют ХМЕ с целью реализации некото- 
рых «изюминок» в вашей программе, даже если входные либо выходные данные 
мало связаны с ХМІ. Наиболее важные примеры реализуются средствами ОВ]- 
подобного модуля ХМ : : ЗАХ с помощью семейства Рей!$АХ2, а также посредством 
отдельных инструментов. (Например, модульХМі. : : бепегаїог : : ОВ, который ре- 
ализован на стыке баз данных и ЅАХ-обработки, выполняемой с помощью суще- 
ствующих Регі-модулей.) 

И наконец, существуют программы, использующие ХМГ, Которые обладают не- 
которыми особенностями. Эти особенности проявляются наличием уровней абст- 
ракции между предназначением данных программ и базовым ХМГ-кодом. Вызов 
таких программ внутри ХМГ-приложения напоминает вызов Мисгозой Мога в сре- 
де С-приложения. Например, при работе с модулем 50АР: : 1 1{е создаются доку- 
менты, предназначенные для конечного пользователя. Эти документы хранятся в 
памяти до тех пор, пока не осуществится подключение к Интернету с применением 
протокола НТТР; в этом случае роль ХМЕ является совершенно очевидной. 


Модуль ХМЕ::В$$ 


Благодарямодулям-помощникам возможно применение специализированных вер- 
сий ХМГ-процессоров, входящих в состав вашего набора инструментов Рей и ХМІ. 
С этой точки зрения ХМі : :Рагзеги подобные ему модули можно рассматривать в 
качестве приложений-помощников, поскольку их применение существенно облег- 
чает задачи программиста. В частности, вам не придется выполнять вручную опе- 
рации по обработке ХМГ-кода, поскольку существуют встроенные Регі-функции, 
выполняющие считывание данных из файла, и регулярные выражения, позволяю- 
щие преобразовывать документы в пригодные к применению объекты либо пото- 
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ки событий. Модуль ХМЕ: :Иг1 ег и родственные ему модули позволяют вместо 
традиционных операторов печати воспользоваться более абстрактным и безопас- 
ным путем с целью создания ХМГ-документов. 

Следует учитывать то, что применение рассматриваемых ХМГ-модулей осу- 
ществляется с целью выполнения весьма специфических задач. При использовании 
одного из модулей в вашей программе нетрудно прийти к выводу, что можно спла- 
нировать применение отдельных четко определенных подсекций ХМГ-кода, а не 
всего кода в целом. Учитывая это ограничение, можно применять (и создавать) 
программные модули, предназначенные для обработки исходного ХМІ-кода. В 
этом случае основная часть кода представляется с помощью методов и процедур, 
специфичных для применяемых приложений. 


В качестве примера рассмотрим модульХМ: : А55 — компактный счетчик, раз- 
работанный Джонатаном Айзенцопфом (Фопашап Еепторй. 


Начальные сведения о ВЅ5 


Аббревиатура В$5 (Кісһ Зце Ѕшптагу (Обзор богатых сайтов) либо Кеау Ѕітріе 
Ѕупаісайоп (Просто синдикат владельцев недвижимости), конкретная расшиф- 
ровка зависит от вашей фантазии), обозначает одно из первых ХМІ -приложений, 
быстро завоевавших популярность благодаря широкому распространению Сети. 
Во-первых, К55$ обеспечивает согласованный способ резюмирования содержимо- 
го \еБ-страниц, но этим его возможности не ограничиваются. Благодаря его при- 
менению администраторы серверов новостей, мер-журналов и других, часто об- 
новляемых мер-узлов получают простой стандартный метод оповещения мира о 
происходящих событиях. Программы, выполняющие синтаксический разбор К5$5, 
могут реализовывать любые действия по отношению к этому документу. В частно- 
сти, результаты синтаксического разбора могуг отсылаться разработчикам по элек- 
тронной почте либо посредством \еб-страниц. Сумматор — специальный тип В $5- 
программы, предназначенный для сбора В55-сведений из различных источников. 
Собранная информация включается в состав новых К$5-документов, благодаря чему 
облегчается выполнение программы синтаксического разбора В$$-документов. 


В настоящее время распространены два сумматора: Месаре, применяемый с 
помощью настраиваемого узла ту.пезсаре.сот (фактически здесь находится «ме- 
сто рождения» первых версий В$55-программ) и сумматор Дэйва Винера (Рахе 
Міпетг), находящийся на \еб-узле Һір://уүҹ.ѕсгіріпе.сот (общедоступный интер- 
фейс этого сумматора находится на меб-узле ћ&р://аддгедаќог,иѕепапа.соту/гедіѕїег). 
Эти сумматоры могут применяться в качестве источников К5$-документов. При- 
чем они представляют собой нечто вроде «универсального К5$-магазина», на пол- 
ках которого можно найти много интересных вещичек. Сумматоры применяются 
уеБ-узлами, выполняющими сбор сведений и установку ссылок на новые инфор- 
мационные ресурсы в Мер. В результате, пользователи \еБ-узлов, поддерживаю- 
щих В$$, могут получать нужные им сведения. Примером подобного узла может 
служить МеегКае (ћр://теегкаѓ.огеШупеѓ сот), размещенный в сети О'ВеШу. 


Применение модуля ХМ(::К $5 


Модуль ХМЕ: : В5$ весьма полезен для конечного пользователя. Он применяется 
для синтаксического разбора К$8$-документов, а также позволяет разрабатывать 
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собственные К$5-документы. Естественно, вы можете комбинировать предостав- 
ленные вам возможности с целью синтаксического разбора документов, их изме- 
нения, а также с целью их повторной записи. Этот модуль применяет простую и 
хорошо документированную объектную модель с целью представления докумен- 
тов в памяти, как в случае с недавно рассмотренными модулями, основанными на 
применении деревьев. Подобный вид ХМГ-помощников можно рассматривать в 
качестве усложненной версии привычного ХМГ-инструмента общего назначения. 

В последующих примерах рассматривается воображаемый мер-журнал, реали- 
зованный в виде часто обновляемого журнала или персональной колонки, публи- 
куемых в Сети. Благодаря применению В$$ в составе \еб-журналов можно быст- 
ро составлять резюме по последним записям в составе единого К$5З-документа. 

Обратите внимание на следующие записи в \еб-журнале (случайным образом 
выбранные из пула воображаемых концепций). И, в первую очередь, на то, как 
выглядят эти записи в окне \еб-браузера: 


Осі 18, 2002 19:07:06 


Тодау І аѕкеа 1ар попкеу 45-Х Бом Һе Ғе] абоие һіѕ гесепі сһеѕѕ 
уісіогу адаіпѕё рг. Вакег. Не геѕропдеа ру ріёіпо пу кпеесар. (Тһе 
попкеу 91а, І теап.) І 

соток 601$ соџа Леа бо а соттипісасіопѕ БгеакЕБхосой. Аз ме11 ‘аз 
раіпЁџ1 зме]]1та, уфусЬ 1$ ипРогбопаее. 


ОСЕ 27, 2002 22:56:11 


Оп а бапдепёіа1 побе, рк. Хіпс'ѕ геѕеагсһ оЁ ригр1Іе уегзаз дгееп попкеу 
їгапѕ-ѕосіоро\1іїісаі 1прасЕ ѕеетѕ бо ре ѕёа11еа, һауіпа даіпеа по 
дгошпа Рог ѕеуега1 иеекѕ. Тодау ѕһе 1Іеагпеа іһаё Бег 1ар аѕѕіѕёсапі 
пеуег” тепёіопеа оп һіѕ јор арр1іісаёбіоп ёһаё Бе маз со1огр1іпа. ов 
ме11. 


И снова обрепипе внимание на К55-документ версии 1.0: 
«ох хеизлойе"1.0" ейсобйто="ОТЕ-8"?> 


<га?: ВОЕ 

хт1п$ : гаѓ= "Һер: //мим.м3 .огЕ/ 1999/02/22 -га{-зупхах-пз#" 
хтіп5= "һр: //риг1.ог6/755/1.0/" 

хміпѕ : ас= "һр: //риг\.огв/ас/е1етепі5/1.1/" 

хт1п$ : бахо= "Һр: //риг1.огЕ/г55/1. 0/тойи1еѕ/їахопоту/" 
хм1п5 : ѕуп= "ПЕЕр: //риг1.огЕ/г55/1. д0/тоаи1еѕ/ѕупдісаїіоп/" 
$> Е 

<Оате! гат: ароиё= "һер: //нмм. јтас. огв/1іпк1ор/ "> 
«сех апк'сіов</#ії1е> 
<1іпк>һїр: //мим. јтас.огр/1іпк1ор/</1іпк> 
<деѕсгіртіоп>рг. Іагсе шик'$ аше иезевисЙ јоигпа1</аеѕсгірїіоп> 


<0с :1 апаџаве>еп-иѕ</1с:1апвиаве> 
оо ораоРЕ 2002 ру Ок. Тапое 1іпк</ас:гірћіѕ> 
<ас:аӢаѓе>2002-10-27723:59:15+05:00</0с:аїе> 


<ас: руб11 ѕћег>11ілк@јтас .О19</ 0С: риь1іѕћег> 

<ас : сгеаїог>11іпкёјтас.огЕ</ас:сгеаїог> 

<ас: ѕибјесі>11іпк</ас: ѕибјесї> 

<ѕуп: ирдафеРег1о9>да11у</5уп: ирдаїеРегіод> 

<ѕуп: ирдаѓеЕгедиепсу>1</ѕуп: ирдаїеЕгедиепсу> 
<ѕуп:ирдаѓеВаѕе>2002-03-03Т00:00:00+05:00</ѕуп:ирдаїеВаѕе> 
<ііетѕ> 
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<гағ:беср 
<Гат:1і га? : еѕоигсе= "Һіїр: //мим. јтас.огЕ/11пк108?2002-10-27#22:56:11" /> 
<00Е:11 га#: геѕоигсе= "ёр: //мим. јтас.огЕ/1іпк108?2002-10-18#19:07:06" /> 
</га?: 5ед> 
</1{ет$> 
</сһаппе1> 


<іїтет га? : або =" Пр: //мим. ј тас. огр/1іпк\ор? 2002 -10-27#22:56:11"> 
<0101е>2002-10-27 22:56:11</#1Ё1е> 

<11пК>И р: //мии. 7186, огв/1іпк108?2002-10-27#22:56:11</11пк> 
<деѕсгірііоп> 

Тодау І азкеЯ 1ар попкеу 45-Х ох һе Ее абоде һіѕ үесепі сһеѕѕ 
уісіогу адаіпѕіё рк. Вакег. Не геѕропові ру Юібіпо пу Кпеесар. (Те 
попкеу 914, І пеап.) І 
Еіпк 651$ сода 1еаа іо а солтопісасіопѕ ркеакіћголоћ. Аз ме! аз 
раша ѕие11іпо, ућісһ 1ѕ цоБогеорафее. 

</аеѕсгірёсіоп> 

</Шет> 


<іѓет га? : ароиї= "пёр: //мии. јтас. огр/1іпк106?2002-10-18#19:07:06"> 
<{1[е>2002-10-18 19:07:06</1111е> 

<1іпк>ћеЕр: //мим. јтас.огЕ/1іпк10672002-10-18#19: 07: 06</1іпк> 
<дДеѕсгірііоп> 

Оп а бапаодепсіа1 побе, Ок. Хіпо'ѕ геѕеагсһ оЁ роур1Іе уегѕиѕ ·скееп попкеу 
їгапѕ-ѕосіоро1іїіса1 1трасЕ зеетз со ре ѕба11еа, һауіто одаіпей по 
стоипа Бог ѕеуега1 меекз. Тодау ѕһе 1еахлеа әб һег 1ар аѕѕіѕёапі 
пеуег пепі1опеа оп һіѕ 906 ароіісаёіоп аё Бе маз со1огюіпа. О меш. 
</аеѕсгірсіоп> 

</Шет> 


</га?: КрЕ> 


Обратите внимание на то, что К55 10 использует различные пространства имен, 
обеспечивающие подлержку метаданных еще до получения доступа к структуре фак- 
тического содержимого’. У любопытных индивидуумов может возникнуть мысль 
воспользоваться ОКІ-ссылками, позволяющими выполнить самоидентификацию. 
Это может понадобиться в случае наличия небольших и «уютных» пространств имен, 
в которых находится требуемая документация. (Аббревиатура «іс» означает Ри т 
Соте, стандартный набор элементов, применяемых для описания источников доку- 
ментов. Аббревиатура «зуп» имеет отношение к пространству имен синдиката, выс- 
тупающему в качестве подпроекта поддерживаемого пользователя В$$-проекта, 
состоящего из множества элементов, с помощью которых проверяется частота об- 
новления источника новым содержимым.) Затем документ в целом включается в 
состав КОЕ-элемента. 


1 Я стараюсь точно указать версии К5$-документов, поскольку К5$-документы версий 0,9 и 
0,91 имеют упрощенную структуру. Причем в этом случае не используются пространства имен и 
ВПЕ-инкапсулированные метаданные. Вместо них применяется простой список из элементов 
<і (ет>, включенный в состав элемента <г5>. Исходя из этих соображений, многие предпочитают 
использовать версии К$5-документов, предшествующие версии 1.0, поэтому поддерживается со- 
вместимость между всеми версиями В5$-программ. Эти возможности присущи модулю ХМ: : 655 
наряду с побочным эффектом, проявляющимся в возможности простого преобразования между 
различными версиями (в рамках одного исходного документа). 


Модуль ХМЕ: 355 175 


Синтаксический разбор 


Порядок использования модуля ХМІ.:; : 5 с целью чтения существующего доку- 
мента может показаться вам знакомым (особенно если вы внимательно читали 
предыдущие главы). Вообше говоря, здесь нет ничего сложного: 


иѕе ХМІ::955; 


# Получение файла, передаваемого с помощью 
# аргументов пользователя. 
пу @гѕѕ досѕ = @АВБСУ; 


# А теперь предполагаем, что все файлы 
# находятся на диске... 

Ғогеасһ шу $г55 дос (@155 й0сѕ) { 

# Сначала создается новый В55-объект, 
# представляющий разбираемый документ. 
пу $158 = ХМЬ::В55->пем; 


# Теперь разбирается следующий фрагмент кода. 
$г55 - >рагзе{11е ($г55_Ч0С); 


# На этом все. Вы свободны в выборе дальнейших действий. 


} | 
Наследование модуля ХМЕ::Рагѕег 


Если метод рагѕе?і1екажется знакомым, это легко объяснимо: аналогичный ме- 
тод используется «великим предком», модулем ХМЕ: : Рагѕег. 

МодульхМі ; :К55 позволяет непосредственно реализовать преимущество, свя- 
занное с применением наследования в ХМІ : :Рагзег. Последний модуль просто по- 
мещается в массив @15А прежде, чем начнут выполняться соответствующие тар- 
объявления. 

Для пользователей, знакомых с объектно-ориентированным программирова- 
нием на Реті, здесь нет ничего удивительного. Определяется собственный новый 
метод, причем выполняемый при этом объем работы немного превышает тот, что 
требуется при вызове модуля ЅОРЕК: : пеж. В этом случае модуль ХМі : : Рагзег са- 
мостоятельно выполняет инициализацию. Обратите внимание на фрагмент кода 


из этого модуля, особенно на конструктор пеж, который вызывается в следующем 
примере: 


90 гем { 
пу Ѕ5с1аѕѕ = Ё; 
пу зе = Ѕ$сЛаѕѕ->50РЕН: :пехч(əМпеѕрасеѕ => 1, 
Моехрапа 


=> 1, 
РагѕеРагатЕпї => 0, 
Пет => { Сһаг => \&һапд\е сһаг, 
ХМ Ос => \бНапа1е_дес, 
саті => рай е ѕбагі}) 


3 е55 ($5е1+.$с1а$$); 
Ѕѕе1#-> литла117те (@_); 
үебп $521; 


} 


Обратите внимание: модуль вызывает метод пе\ модуля-предка, используя весь- 
маспецифические аргументы. Все они стандартны и хорошо описаны в инструкци- 
ях по установке для общедоступного интерфейса ХМІ: :Рагзег. Передавая эти пара- 
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метры в распоряжение пользователя, модуль ХМ: : 5 точно «знает», что он полу- 
чает в этом случае. Речь идет об объекте анализатора с включенной обработкой про- 
странства имен, но при этом отсутствует расширение либр синтаксический разбор 
параметров сущностей. Также самостоятельно определяются обработчики. 

Результат вызова модуля $0РЕК: : пем представляет собой объект ХМІ: :Рагѕег, 
который вряд ли будет передаваться обратно в распоряжение пользователей мо- 
дуля. Если передача состоится, это скажется на достигаемой степени абстракции! 
Таким образом повторно одобряется применение объекта (на этот момент време- 
ни рассматриваемого в качестве новой инструкции $ѕе1# для данного класса), 
использующего корректные (с точки зрения Рег1) методы, применяющие два аргу- 
мента. В результате возвращаемый объект требует «верности» модулю ХМЕЁ: : 55, 
ане модулю ХМЕ : : Раг$ег. 


Объектная модель 


До сих пор мы уже видели, что модуль ХМ: : В5$ не относится к разряду уни- 
кальных продуктов с точки зрения устройства объекта анализатора и процесса 
разбора документов. Теперь же перейдем к рассмотрению области, в которой наи- 
более ярко проявляются преимущества модуля, — на базе внутренней структуры 
данных производится создание и применение интерфейсов АРТ, основанных на 
методах этого модуля. 


Большая часть кода модуля ХМЕ : : А55 формируется на основе методов-потом- 
ков, применяемых для чтения и записи предопределенных позиций в создаваемой 
структуре. Не используя ничего более сложного, чем несколько хэш-объектов Реті, 
модуль ХМі : : В5$ формирует карты объектов, которые ожидаются в данном доку- 
менте. Причем эти карты состоят из вложенных хэш-ссылок с именованными клю- 
чами после элементов и возможными атрибутами. Перечисленные объекты явля- 
ются вложенными, вследствие чего определяется метод их поиска в реальном 55 
ХМІ-документе. Модуль определяет одну из подобных карт для каждой версии 
обрабатываемого В5$-документа. Ниже приводится пример простейшей карты, 
связанной с В55-документом версии 0.9: 


ту $0 9 ок _?іе1а5 = ( 
сћаппеГ => { 
ие => ", 
деѕсгірёіоп => '', 
Ііпк => '', 
}. 
іпаде => { 
сібе => '', 
игі => '', 
ок => '' 
>, 
Сехіїіприё => { 
Е161е =>'', 
деѕсгірёіоп => '', 
папе => '', 
1іпк => '' 
}• 
їетѕ => [{], 
пит_іёетѕ => 0, 
уегѕіоп => '', 
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епсодта => '' 


; 

При формировании рассматриваемой модели используются не только хэш- 
ссылки. Например, ключ «элементы» высшего уровня содержит пустую ссылку 
на массив. С другой стороны, все конечные значения для ключей являются ска- 
лярными. На базе всего перечисленного выше формируются пустые строки. 
В качестве исключения можно рассматривать элемент пит і іегпѕ ‚ который не 
принадлежит к числу В55-элементов. Его применение диктуется соображения- 
ми удобства, в результате чего достигается компромиссный вариант, проявляю- 
щийся в виде структурной элегантности и удобства в применении (возможно, 
код не поддерживает явное разыменование ссылок на элементы массива, поэтому 
их значения считываются в скалярном виде). 

С другой стороны, при рассмотрении подобного примера можно легко потерять 
связь с реальностью (в случае, если описываются изменения, а программист не 
запоминает дату выполнения подобных действий). Подобные вопросы часто имеют 
отношение к стилю программирования и выходят за рамки нашей книги. 

Описываемое распределение имеет свои причины, помимо того, что хэш-объек- 
там может присваиваться что угодно (к этому разряду относится даже ипде{). Каж- 
дый хэш-объект несет двойную нагрузку и может рассматриваться в качестве карты 
процедур модуля либо шаблона для самих структур. Учитывая это обстоятельство, 
давайте посмотрим, что происходит при конструировании элемента ХМ: : Рагѕегс 
помощью метода класса пе\ для данного модуля. 


Ввод: пользователь или файл 


Непосредственно после завершения фазы конструирования модуль ХМІ: : В $$ 
может применяться для разбора К58-документа. Это происходит благодаря воз- 
можностям по проведению синтаксического разбора, унаследованным от моду- 
ля ХМ: : Рагѕег. Все, что должен в данном случае сделать пользователь — это 
вызвать методы объекта рагѕе либо рагѕе?і1е, и все! 

Несмотря на этот примечательный факт, многие из настоящих объектов могуг 
«жить долго! и счастливо» без выполнения обработки существующих ХМІ -доку- 
ментов. Зачастую К55-пользователи хотят, чтобы модуль полностью выполнял ра- 
боту по созданию документа «с нуля», или компонуя части текста, предназначенные 
для использования программой. Это как раз тот случай, когда будуг использоваться 
все упомянутые средства обеспечения доступа. 

Предположим, что имеется база данных, созданная с применением 5ОТ-команд, 
содержащая некоторые записи мер-журнала, имеющие отношение к К$5-докумен- 
ту. На ваше рассмотрение предоставляется следующий небольшой сценарий: 


#1/иѕг/ріп/рег1 
# Включение последних 15 записей уер-журнала доктора Пинка 
# в К55-документ версии 1, тут же направляемых в 5ТООЦТ. 


осе магпіпав; 
оѕе зігісі; 


! На самом деле под «ДОЛГОЙ жизнью» подразумевается несколько сотен секунд машинного вре- 
мени для типичного ПК. 
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ие ХМЕ : : 855; 
ие рВІх: : Арѕїгасї; 
пу ЅМАҲ ЕМИВТЕС = 15; 
пу (Ѕоџсроб уегѕіоп) = @АВСУ; 
ЅоџуроЕ уерѕіоп ||= '1.0'; 
пез (Ѕоџброё уегѕіоп ед '1.0' ог Ѕоџбри уетѕіоп ед '9.9' 
ог Ѕоџбриё уеуѕіоп ед '0.91') { 

Че "Оѕаде: 50 [мегѕіоп]\пибеге [уеуѕіоп] 1$ ап В95 уегѕіоп бо опбриё: 

0.9, 0 .91, ог 1.@\преғаиії іѕ 1.0\0"; 


} 


пу $абһ = ОВТх: :Арѕегасё->соппесё ({Ябпате=> 'ухер1ос', 
изег=> '11пКк', 
ра$$мог4=> '91убуаре'}) 
ог де "СооШш'Е соппес ёо дабараѕе. \п"; 


у (дасе) = $9аЫһ->ѕе1есї('тах(даїе аддеад) ', 
"епёгу') ->Тефспгом_аггау; 

у (Еще) = $абһ->ѕе1есї (' тах (їіте аадеа) ', 
ў "епігу') ->Ғеїсһгом аггау; 


у Ѕііпе топе = "+05:00"; # Часовой пояс. :) 
у $153 біпе = "5{аасе)}Т5іітебііте топе"; 
Базовое время, назначаемое при запуске с б\ов, для 
информации о синдикате. 
у Ѕраѕе біпе = "2001-03-03Т00:00:00$%1іте гопе"; 


Выбран В$5 версии 1.0, с помощью которого некоторая 
метаинформация передается в «модули», помещаемые 

в собственные пространства имен, · такие как · 
"ас" (аббревиатура для ріп Соге) либо 'ѕуп' 
(аббревиатура для В55 Ѕупадісаііоп), к счастью, при 
этом документ нисколько не усложняется, как можно 
видеть в дальнейшем. 


у 5055 = ХМ: :55->пем(уегѕ1іоп=>'1.0', олерас=>боцерие: уегѕіоп); 


‚ $г55 ->спаппе1 ( 
$161е=>'Ое. Ііпкѕ Мер10од', 
1іпк=> ‘Һр: //имм. јтас.огЕ/1іпК1ов/', 
аеѕстірііоп=>"Ю”. Ііпк'ѕ мер1ос апа опіпе јошта1", 
ас=> { 
Часе=>$узе ііте, 
сгеафог=> '11іпк@јтас.огЕ', : 
11906$=>'Соруг1ойЕ 2002 ру Ок. Іапсе Ііпк', 
1апёцазе=> 'еп-и5', 
а 
ѕуп=> { 
ирдафеРег1о4=> 'аї1у', 
зраабегкеачиетсу=>1, 
ирдаіеВаѕе=>$баѕе їіте, 
}, 


$Ч6н->ацегу (" зе1есЕ * #готегіху окаех ру іа деѕс 1ітії $МАХ_ЕМТВТЕЯ"); 
уфе (пу Ѕепіту = $40һ->Ғеїсһгом һаѕһге?) { 
# замена сомнительных ХМГ-символов на сущности. 
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Ѕбепіху{елу} == 5/8:/5:/9; 
Ѕбепіху{епту} =- 5/</81; /9; 
епсгу{епсху)} =- ѕ=/' /&ароѕ; /2; 
ЅЅепіху{епску} =- $/" /&400+; /8; 
$г55->ада іїет( 
ііїле=>"$%епігу{ бае аааей) $%епїгу{їіте ададеа}", 
1їпк=> "Пір: //мим. ј тас. огв/мер1ор? 
$$епїгу {дате айдеа} #$$епігу{їіте адаей}", 
Яаеѕсгірїіоп=>$%$епїгу {еліту} ", 
}: 


Результаты просто направляются в стандартный поток вывода. :) 
ріп 5үѕѕ->аѕ Ѕігіпо; 


Видели ли вы здесь признаки ХМГ-кода? Лично нам не удалось их узреть. Да, 
здесь применялись регулярные выражения, но фактически производилось чтение 
данных из базы данных, а затем помещение найденного в объект путем вызова не- 
скольких методов (точнее, речь идет о вызове единственного метода ада _1{ет, осу- 
ществляемого в цикле). Эти вызовы и их единственные аргументы принимаются с 
помощью хэш-объекта, созданного на основе нескольких простых строк. При напи- 
сании этой программы преследовалась определенная цель — использование при со- 
здании \еб-журнала всех преимуществ, предлагаемых К$5$, причем при создании 
нашего файла ХМГ-код не применялся. 


Импровизированный вывод, 


Таким образом, модуль ХМ; : 55 не может воспользоваться модулями-помощни- 
ками, обеспечивающими генерирование ХМГ-кода (например, ХМІ: :Мгіїег) с 
целью генерирования соответствующего вывода. В этом случае просто создается 
одно длинное скалярное значение, основываясь на котором хэш-карта приобрета- 
ет вид кода. Выполнение последнего регулируется с помошью обычных блоков 
1Е, е1зе и е1 $11. Причем каждый из этих блоков тяготеет к использованию опе- 
ратора самоконкатенации, . =. Если же вы хотите приступить к созданию собствен- 
ных модулей, генерирующих ХМГ-код, попытайтесь воспользоваться следующим 
подходом. Создайте документ в памяти, состоящий из литералов, затем выведите 
его на печать, воспользовавшись файловым дескриптором. В результате вы смо- 
жете уменьшить издержки И получить дополнительный уровень контроля, хотя 
сам процесс станет менее безопасным. Удостоверьтесь в том, что вывод был прове- 
рен и признан формально корректным. (Если применяется комбинированный ин- 
струмент анализатор/генератор, наподобие ХМІ: :К55, попытайтесь выполнить 
синтаксический разбор результатов, выводимых модулем, и убедитесь в том, что 
получается то, что ожидалось.) 
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А теперь рассмотрим программное обеспечение, функции которого отличаются от 
того, что было описано ранее. Вместо того чтобы обрабатывать ХМГ-документы с 
применением Регі-методики, используются ХМГ-стандарты. В этом случае обес- 
печивается решение задач, не требующих явного применения ХМГ. В настоящее 
время многие ведущие специалисты, фигурирующие в списке рассылки рег1 -хт1, 
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заняты поиском мини-платформы, пригодной для универсальной обработки дан- 
ных средствами Рег. Причем в качестве основы в данном случае используется 
ЗАХ. В результате этого исследования появляются некоторые интересные (и по- 
лезные) примеры. К их числу можно отнести модули ХМі: : ЗАХОнуег: : Ехсе| и 
ХМ. : : $АХОпуег : :СЅУ, разработанные Ильей Стериным (Пуа Ѕіегіп), и модуль 
ХМС : бепегафог: :РВІ, разработанный Мэттом Сержантом (Май Ѕегреапі). Эти 
три модуля могут получать данные в формате файлов Мгсгозой Ехсе|], содержа- 
щих разделенные запятыми значения, а также в формате баз данных ЗОГ. Роль 
оболочки в данном случае играют ЅАХ АРІ (Некоторые из этих компонентов рас- 
сматривались в главе 5, поэтому любой программист вправе рассчитывать на то, 
что новый формат столь же хорош и легко управляем, как и другие, ранее рассмат- 
риваемые ХМГ-документы.) 


Обратимся к подробному рассмотрению одного из этих инструментов, пред- 
ставляющему особый интерес в свете современных концепций программирования. 


Модуль ХМЕ: :бепегаюг: :ОВТ 


Модуль ХМС :бепегафог: ОВГ может служить превосходным примером так на- 
зываемого склеивающего модуля. Основное назначение этой простой программы 
заключается в обеспечении взаимодействия между двумя существующими (но не 
полностью связанными) частями программного обеспечения. В этом случае, при 
конструировании объекта из данного класса, можно встраивать дополнительные 
объекты: дескриптор базы данных ЮВІ и объект обработчика, «говорящий» наязы- 
ке ЗАХ. 

Модуль ХМі : : бепегаког : : ОВІ не располагает сведениями относительно про- 
исхождения объектов. Здесь реализованы доверительные отношения, основанные 
на отклике в случае вызова стандартных методов и соответствующих им семейств 
методов (ОВТ, ЅАХ или ЅАХ2). Затем на базе объекта ХМЕ: : бепега+ог: : ОЕ вы- 
зывается метод ехесиц*е. При этом используется стандартная $501.-конструкция, 
как и в случае с дескриптором базы данных, созданной на основе ОВ. 

В следующем примере демонстрируется практическое применение модуля. Ис- 
пользуемый ЗАХ-обработчик — экземпляр модуля ХМІ: :Нап ет: :УАМ гіїег, раз- 
работанного Майклом Коэном (МісһаеІ Коеһпе). Этот модуль легко настраивает- 
ся, причем в результате его применения $ АХ-события преобразуются в текстовый 
вывод. Благодаря применению этой программы можно, к примеру, ЗОГ-таблицу, 
содержашую перечень компакт-дисков, преобразовать в формально корректный 
ХМГ-документ и вывести его на стандартное устройство печати: 


#1/иѕг/ріп/регі 


изе матіпоѕ; 
иѕе ѕїгісі; 


ие ХМІ. : : сепегаїог: : рВІ; 
Ое ХМЕ :.: Напд1ег: : УА\г1 ег; 


‹ѕе ОЕ 
пу Ѕуа = ХМ: : Напа1ег: : ҮАМГіёег->пем (АЗЕ11е> " – " ) 


пу 59% = 0ВІ- >соппесї ("061 : туѕд1:Орпате=Ёеѕї", "јтас", М 
пу $вепегаког = ХМ: :бепегаїог: :ГВІ-хлех 
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НакПег => $уа, 
а => $4 
); 

пу Ѕ501 = "ѕеІесі * бот са"; 


фрепегаїог- >ехесиїе ($5041); 
Ниже приводится соответствующий результат: 


<от] уегеіоп= "1.0" епсофіто=1ЛЕ-8"?><дасасаѕе> 
<ѕеІесі аиегу="ѕе1есї * Гот о05"> 
<ҮОл> 
<14>1</14> 
<айіѕї>Оопаіа апа Ме Кписһѕ</агііѕї> 
<їіїле>бгеаїеѕї НИ$ МОЇ. 3.14159</#ії1е> 
<репге>Коск</репге> 
</гом> 
<ом 
<10>2</19> 
<айіѕі>Тһе Нурпосгаїѕ< /агіѕі> 
<Ше>Субегпенс Стапат АЕаск</Е1Те> 
<репге>Е\есігопіс</вепге> 
</ом> 
<ом 
<19>3</44> 
<аг${>Тпе ат Напомсһ диаге{</аг+1$+> 
<«іШе>Напамісћ а Іа үоригі</1161е> 
<депге>Јаг2</депе> 
</гом> 
</ѕеіесі> 
</даїараѕе> 


Настоящий пример не представляет особого интереса, хотя и хорошо выглядит 
при печати. В этом случае не использовался модуль ҮАМгіѓег. В системе можно 
применять любой из имеющихся ЅАХ-обработчиков Регі-пакета, включая те из 
них, которые были написаны пользователем. Последние могут задействоваться при 
создании новых объектов ХМі : : бепегаїог: : ОЕ. В результате применения опи- 
санного ранее примера таблицы базы данных при вызове метода ехесше объекта 
$репепегаёогсоздается эффект, аналогичный итогам синтаксического разбора пре- 
дыдущего ХМГ-документа (различается лишь количество пробелов, включаемых 
УАМЕ1Еегс целью улучшения восприятия текста пользователем). Причем эта зако- 
номерность может проявляться даже в том случае, если фактически исходный код 
не относится к разряду ХМІ -документов, а просто является таблицей базы данных. 


Размышления по поводу ОВ! и ЗАХ 


А теперь сделаем небольшое отступление в сторону методик, основанных на при- 
менении ОВ] и ЅАХ. При этом доступны возможности общего характера, обеспе- 
чивающие управление данными. 

Основная причина популярности Рей РВІ, используемого в качестве интерфей- 
са базы данных Рей, заключается в особенностях архитектуры. При инсталляции 
"Рві, необходимы два отдельных компонента: ОВІ.рт включает код ОВТ АРУ, атак- 
же всю необходимую документацию, но в этом случае вы не можете управлять базой 
данных Реп. Полный спектр возможностей обеспечивается при наличии, как мини- 
мум, одного ОВО-модуля, совместимого стипом применяемой базы данных. В сети 
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СРАМ можно найти множество подходящих модулей: ОВО: : МУЗОГ, ОВО. ; Огасе и 
ово: : Ре (для базы данных Роѕіегеѕ). Если программист организует взаимодействие 
с одним ОВ]-модулем путем отправки ему 501 -отчетов и получения соответству- 
ющих результатов, с реальной базой данных взаимодействует соответствующий 
ОВО-модуль. Благодаря применению ОВО-модуля абстрактные ОВ]-методы пре- 
образуются в высшей степени специфичные и зависящие от применяемой платфор- 
мы команды базы данных. Причем рабочий уровень в данном случае находится су- 
щественно ниже уровня, на котором работают ОВ]-пользователи. В результате, 
любая Регі-программа, использующая возможности РОВІ, сможет обрабатывать лю- 
бую базу данных (в случае наличия подходящего ОВО-драйвера'). 

В мире Реп и ХМІ наблюдается быстрый прогресс, причем начало «взрывооб- 
разного» развития датируется 2001 годом (время возникновения ЗАХ-драйверов, 
упомянутых в начале главы). Логическим результатом этого прогресса стала раз- 
работка модуля ХМ: :5АХ, ЅАХ2-реализация которого функционирует подобно 
рві. Пользователю достаточно указать желаемый ЗАХ-анализатор, дополнитель- 
но определить ЗАХ-свойства, присущие программе, после чего осуществляется 
поиск наилучшего рабочего инструмента в системе, создание рабочего экземп- 
ляра инструмента и его передача в распоряжение пользователя. Затем можно 
подключиться к пакету выбранного ЅАХ-обработчика (как и в случае с модулем 
ХМ. : : Сепегаюот: : ОВ] и все готово. 


Благодаря РеЅАХ-обработчикам можно использовать стандартный интерфейс 
с целью выборки данных из любого мыслимого источника данных, в то время как 
ОВО-драйверы обеспечивают стандартный интерфейс для выборки данных из баз 
данных. Как и в случае с ОВТ, требуется всего лишь неустрашимый хакер, который 
сможет разобраться в тонкостях реализации применяемого формата данных, после 
чего другие Рей-программисты смогут воспользоваться стандартными АРІ с целью 
обработки «чужеродного» формата. Для этого им потребуется разобраться в дета- 
лях реализации ЗАХ. 
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И напоследок мы приступим к рассмотрению категории программ Рей и ХМГ, ко- 
торые настолько далеки от тематики, что, может быть, и не стоило упоминать о них, 
если бы не некоторые примечательные присущие им свойства. В этой категории 
описываются модули и расширения, которые подобны модулям-помощникам из 
классахмі : : 5. Благодаря ихприменению можноработатьс разнообразными ХМІ- 
документами. Причем в этом случае программисты «изолируются» от исходного 
потока данных, «нашпигованного» элементами. Количество уровней абстракций в 
этом случае таково, что присутствие ХМІ -кола вообше не ощущается. 

Например, если требуется написать программу, использующую возможности 
протоколов ЗОАР либо ХМІ-КРС по обработке удаленного кода, вряд ли вы смо- 
жете это сделать лучше специализированных программных модулей. В этом слу- 


* Предположим, например, что программист не позаботился о том, чтобы под рукой была про- 
грамма, обеспечивающая уникальные запросы для базы данных. В этом случае запрос типа $$ й- 
>аџегу('ѕеіесі 1азг_1пзег{_149() бот #оо') может хорошо выполняться по отношению к базе 
данных МуЗОГ, но мало подходит при работе с базами данных Ро$тез$. 
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чае в распоряжение программиста предоставляется некая «скатерть-самобранка», 
выполняющая всю черновую работу по созданию программного кода! (По жела- 
нию пользователя, хороший модуль обеспечивает доступ к исходному ХМГ-коду.) 

Протокол простого доступа к объектам (Зпаре Објесі Ассеѕѕ Ргоюсо|, ЗОАР) пре- 
доставляет в распоряжение программиста всю мощь объектно-ориентированных меб- 
служб’. При этом он может конструировать и использовать объекты, для которых с 
помощью О Е]-ссылки устанавливается соответствие с определениями классов. В этом 
случае даже нетребуется знать применяемый язык программирования, поскольку про- 
токол преобразует методы объектов в универсальные АРІ, основанные на ХМІ -коле. 
До тех пор, пока класс где-либо документирован, дополнительные детали доступных 
классов и методов объекта можно исключить в том случае, если класс представляет 
собой просто другой файл на локальном жестком диске. Причем то, что он фактиче- 
ски существует на удаленном компьютере, не имеет ни малейшего значения. 

К этому времени можно легко забыть о том, Что осуществляется работа с ХМГ- 
кодом. По крайней мере, при работе с В55 имена методов объектных АРІ более 
или менее соответствуют аналогичным именам в результирующем выходном до- 
кументе. В этом случае вряд ли вы захотите видеть документы, предназначенные 
исключительно для компьютера. Это нежелание сродни неприязни к числовым 
кодам, представляющим коды клавиш, которые пересылаются центральному про- 
цессору компьютера. 

Имена, определенные в 50АР: : і їе, соответствуют планируемому объему ра- 
боты и нисколько не отражают ваше собственное мнение. После установки этого 
модуля в системе в распоряжение программиста предоставляется большой пере- 
чень доступных Реп-пакетов, многие из которых определяют большое количество 
транспортных стилей’. Модуль той ре г 11 облегчает поддержку \еЪ-служб сред- 
ствами ЗОАР, а также включает полный пакет, предлагающий в распоряжение 
пользователя соответствующую документацию и примеры. Этот модуль может при- 
меняться в аналогичных целях совместно с набором модулей, поддерживающих по- 
добные АРІ для модуля ХМГ-КРС, напоминающего ЅОАР, но не поддерживающе- 
го объектно-ориентированные свойства. Модуль 50АР : : | їїе может служить своего 
рода источником вдохновения для Регі-программистов, успехи которых в програм- 
мировании меб-служб сравнимы с возможностями ССІ.рт в сфере программирова- 
ния динамических \/еб-узлов. 


А теперь засучите рукава и приготовьтесь к началу работы с ЗОАР. 


Первый пример: преобразователь температур 


В каждой книге, посвященной программированию, обязательно имеется пример 
программного кода, выполняющего преобразование значений температур, нетакли? 


1 Несмотря на название, мер-службы не связаны непосредственно с Моа УМае Мер. На самом 
деле меб-служба — часть программы, выполняющая прослушивание порта, на который указывает ОКІ. 
После приема запроса формируется отклик, имеющий смысл для запрашивающей сущности. 
В качестве наиболее общего примера У\ 6 -службы можно рассматривать мер-сервер, поддерживающий 
передачу данных с применением протокола НТТР. Концепция более современных центров рекламы 
предполагает поддержку постоянного доступа к объектам и процедурам (в результате программист 
может использовать программный код, хранящийся на удаленных серверах, с целью его интеграции с 
локальным программным обеспечением). 

2 Как правило, в этом случае ЗОАР-объекты используют НТТР, но если вы захотите воспользо- 
ваться исходным протоколом ТСР, $МТР либо даже ]аббег, особых проблем не возникает. 
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Мы не будем нарушать эту традицию. В рассматриваемом примере, позаимство- 
ванном из раздела ЗУМОРЗГ$ документации по модулю 50АР:: і їе, была созда- 
на программа, основная функция которой, Ё2с, находится на међ-узле по адресу 
АЕр://зегмсез.зоаре.сот/Тетрегавигез. 


уе $0АР::11їе; 
ріп $0АР: : Шбе 
=> игі ('НЕЁр: //мми. зоар111е. сом/Тетрегатиге$ ') 
=> ргоху ( ' ПЕЕр: / /зегу1сез$ , зоарт1{е, сот/фетрег.с81') 
=> Е2с (32) 
—> геѕиі; 


При выполнении этой программы в качестве Рей-сценария (на компьютере с кор- 
ректно установленным модулем 50АР: : і іе) получаем корректный результат: 0. 


Второй пример: механизм поиска индексов І5В№ 


На этот раз рассмотрим небольшой модуль, который можно найти на одном из 
персональных \еб-серверов автора. Этот модуль носит ярко выраженный объект- 
но-ориентированный характер. В качестве входных данных берется [$ВМ-номер, 
на основе которого формируется ХМГ-код Бит Соге практически для каждой 
книги, которая может ему соответствовать: 


пу ($66п питрег) = ёАК6У; 

ие 50АР: :11їе +аџіодіѕраїсһ=> 
игі=> пер: //чмм. 1тас.огЕ/ТЗВМ', 
ргоху=> 'ћіЕр: //мии. ј тас. огв/ргојесіѕ/боокар/ іѕЬп/1оокир. рї '; 
пу $1$6п_о53 = І5ВМ>пему, 

# Метод 'деї ас' выбирает информацию Ррибііп Соге. 

ту $геѕиії = $іѕрп_ оБј->деї ас($%іѕрп питбег); 


Весь секрет заключается в том, что модуль, размещенный на хост-компьютере, 
ІЅВМрт, не является особо необычным. Этот достаточно простой Ре|-модуль мо- 
жет применяться обычным образом в случае, если требуется располагать локаль- 
ной копией. Другими словами, можно получить те же самые результаты путем ре- 
гистрации на компьютере и запуска на выполнение следующей программы: 

ППУ ($156п_питьег) = © 

изе 15ВМ; # ЭТОТ КОД заменяет 'иѕе $0АР: :1 іїе' строкой 
ту $іѕрп_обј = 1$ВМ->пем; | 

# Метод 'деї ас’ выбирает информацию Оибііп Соге. 

ту $гези1{ = $1$5п_ 05] ->5её_9с ($1$6п_питЬег) ; 

Вызов модуля 50АР: : 1 {е и использование некоторых дополнительных мето- 
дик облегчает обзор удаленного компьютера, «прослушивающего» запросы в стиле 
ЗОАР. В этом случае не требуется копировать Регі-модуль на клиентский компь- 
ютер с целью применения соответствующих интерфейсов АРІ. В конечном счете, 
мы приходим к странному повторно реализованному модулю Јауа, о котором вы, 
возможно, ничего и не знаете, несмотря на подобие применяемых интерфейсов. 
В мире меБ-служб, не зависимых от языков, все имеет значение. 

`Где же тут ХМГ-код? Давайте посмотрим, что происходит в том случае, если 
конструктор класса 1$ВМ вызывается после активизации опции оџіриіхті моду- 
ля 50АР::11{е: 


ППУ ($1$6п_питьег) = @АВСУ; 
Це 50АР: : 1%е +аию@ераси= > 
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иг1=> "ір: //имм. мас. огё/Т$ВМ', оиїриїхт1=>1, 

ргоху=> ' ВЕфр: / /чим. јтас.огЕ/ргојесїѕ/роокар/ іѕ6п/1оокир.рї1'; 
пу б16а жи = ТУВМ->0ем; 
ріп "$156 п_хт1\п”; 


И вотмы возвращаемся к следующему коду: 


<? мегѕіоп="1.0" епсоЧ41пЕ=“ИТЕ-8"?><50АР-ЕМУ: Епуе1оре хт1пѕ: 50АР- 

ЕМС= "һіїр: //ѕсһетаѕ. хт1 ѕоар.огв/ѕоар/епсоаіпр/" ЗОАР- 

ЕМУ: епсоаіпрѕїу1е= "їр: //ѕсһетаѕ. хт1 ѕоар.огв/ѕоар/епсодіпв/" хт1пѕ : 50АР- 
ЕМУ="Һебр: //зсһатеѕ. хт] ѕоар.ого/ѕоар/етуе1оре/" хтіпѕ : хѕі="һіїр: // 

мин. и3 . ОГЕ/ 1999 /ХМЕ 5сһета- іпѕїапсе" хтіпѕ : х50= "Һр: //ими.и3 .огё/1999/ 
ХМібсһата" хтіпѕ : патеѕр1="һёїр: / /мим. мас. огр/15ВМ№" > <50АР- 

ЕМУ : Воау> <патеѕр2 : пенКеѕропѕе хт1пѕ : патеѕр2="ћЕїр: //мим. ј тас. огр/ 
15В№"><15В№х51 : їуре="патеѕр2 : 15В№"/></патеѕр2 : пемКеѕропѕе></50АР- 

ЕМУ : Воду> </50АР- ЕМУ: Епуе1оре> 


Второй фрагмент кода листинга приводит к прекращению выполнения, по- 
скольку возвращается скалярное значение, содержащее большой объем ХМІ -кода 
(который выводится на печать) вместо объекта, принадлежащего семейству клас- 
сов ОАР: : Е1{е. В этом случае невозможно продолжение вызовов методов. Эта 
проблема может быть устранена путем использования класса 50АР: : ЮОеѕегі а1 ї7ег, 
возвращающего ХМГ-код ЗОАР ХМГ, обратно в распоряжение объектов: 


# Продолжение предыдущего фрагмента кода. 

пу $йеѕегіаї1 = ЅОАР::реѕегіа1іғег->пем; 

ту 5іѕоп ор) = $9езегта1 - >Чезег1а112е ($1$6п_хт1); 

# Можно продолжать, как и в первом примере. 

Небольшой объем дополнительной работы может способствовать «увязанию 
в дебрях» исходного кода ХМГ, равно как среди «черных ящиков» объектов 
Ѕ0АР; : [41е. Как и следовало ожидать, рассматриваемое свойство имеет отно- 
шение не только к примерам данной книги. Предоставление исходного ХМГ- 
кода в распоряжение пользователя влечет за собой появление самых разных 
интересных ошибок, причиной которых может стать «человеческий фактор». 

В то время как магия Реті-молуля 50АР: : Е1{е проявляется различными путя- 
ми, сам ЗОАР является просто протоколом, который наравне с причудливыми про- 
странствами имен, элементами и атрибутами, присущими ХМІ и генерируемыми 
рассматриваемым модулем, удовлетворяют требованиям $ОАР-спецификации'. 
Благодаря подобной совместимости возможно применение хитроумного плана по 
отношению к $ОАР-приложениям. В этом случае модуль 50АР: : і їе может вы- 
полнять свои традиционные функции. Затем эти функции переходят к вашей про- 
грамме, которая захватывает исходный ХМІ -код, выполняет по отношению к это- 
му колу некие странные и непонятные на первый взгляд операции (код может 
разбираться с помощью любого ранее рассмотренного метода), а затем возвращает 
контроль обратно модулю 50АР: : і іїе. 

Общеизвестно, что при выполнении большинства операций с модулем 50АР: : [4 їе 
не требуется четко указывать границы сведений относительно обработки ХМІ -кода 
в Рей. Большинство приложений заранее снабжены требуемым набором функцио- 
нальных свойств. Если вы хотите получить реальную выгоду из этого обстоятель- 
ства, дерзайте. Знание — сила! 


{Описание версии 12 содержится на жеБ-узле по адресу Вр: //млму.м3.0г9/ТК/ѕоар12-раж1/. 


Стратегии 
программирования 


В этой главе повторно затронуты темы большинства разделов книги. Мы возвра- 
тимся к рассмотрению многих вопросов ХМІ -обработки в Реп, представленных в 
главе 3, однако в контексте всего того материала, с которым вы ознакомились в 
предыдущих главах. Цель состоит в проведении завершающего обзора Рег и ХМГ, 
с его стратегиями и понятиями. 


Пространства имен Рей и ХМЕ 


Пространства имен ХМІ использовались с тех пор, как этот термин был впервые 
упомянут в главе 2. Многие ХМІ -приложения, например, ХІТ, построены натом, 
что все их элементы используют определенное пространство имен. Решающим фак- 
тором при этом, как правило, служит то, в какой степени является комбинирован- 
ным приложение при традиционном применении: выполняется ли оно само по себе, 
то есть один документ на одно приложение, или смешиваются другие виды ХМТ- 
обработки документов? 

Например, ХМГ-документ ЮОосВоок не является в высокой степени комбиниро- 
ванным. Экземпляр РосВоок - это практически всегда ХМІ -документ, определяю- 
щий книгу или статью, а все элементы этого документа неявно связаны с некоторым 
другим пространством имен. Описание этого пространства имен можно найти в офи- 
циальной документации по ОосВоок!. Однако, используя этот документ, можно на- 
толкнуться на ряд элементов Ма МТ, «приютившихся» среди элементов ЮосВоок 
и «впитывающих» в себя содержимое последних. 

Этот вид элементов полезен по двум причинам: во-первых, хотя элементы 
ДосВоок разрабатывались с целью охвата всего многообразия форматов и стилей, 


! За дополнительными сведениями обратитесь к жер-узлу Пир://\м\\м.аосбоок.оге либо к книге 
ОосВоок: Тће Юећпійуе Слиае издательства О'КеШу. 
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которые можно найти в технической документации, с их помощью, например, не- 
возможно адекватно описывать математические уравнения. (В состав этого доку- 
мента действительно входят элементы <едиаНоп>,Но они часто используются для 
описания природы графических элементов.) Добавив возможности МаймМГ,, мож- 
но использовать все теги, определенные этой спецификацией языка разметки в 
ОосВооК-документе и надежно «упрятанные» в пространстве имен. (Поскольку 
МайМЕ и росВоок могут использоваться совместно, ОосВоок ОТО разрешает 
пользователю включать «модуль Маі МІ», который добавляет в программу эле- 
мент <тт1 : таёһ>. В этой программе каждый элемент обрабатывается с помощью 
своего документа ОТО для Ма МГ, который импортирует этот модуль (вместе с 
основным ОТО росВоок) во все ОТО-пространство при проверке достоверности.)) 

Во-вторых, возможно, более интересная причина с позиций анализатора состоит 
в том, что теги, существующие в данном пространстве имен, работают как «посоль- 
ства»; пока вы находитесь на их территории (другими словами, в их области дей- 
ствия) все законы и правила этой страны применяются к вам, несмотря на размеще- 
ние посольства на территории Другого государства. Пространства имен ХМІ также 
похожи на пространства имен Реті, которые позволяют применять переменные, под- 
программы и другие идентификаторы, заложенные в модуле Ѕоте : : Оёпег : : Раскаве 
хотя они могуг быть не определены по умолчанию в основном пакете (или в каком- 
либо другом пакете, с которым вы работаете). 

Другими словами, наличие пространства имен часто указываетнато, что изданного 
приложениязапускается второе, самостоятельное ХМІ_-приложение. Поэтому, если из- 
вестно, что какой-либо процессор написан для обработки некоторого вида ХМГ-при- 
ложений и в нем, возможно, будет использоваться определенное пространство имен, 
можно значительно облегчить себе работу, передав управление другому Регі-моду- 
лю, который может выполнять обработку вместо этого второго ХМГ-приложения. 

Например, на диске вашего компьютера находится ХМІ -файл, документ кото- 
рого содержит список обезьян, живущих в доме. Большая часть этого файла содер- 
жит элементы в соответствии с вашим замыслом, но, поскольку вы одновременно 
и хитрый, и ленивый, документ также использует язык разметки обезьян как стан- 
дартный способ описания обезьян средствами ХМГ. Это связано с тем, что он был 
разработан с учетом применения в более крупных документах, в которых опреде- 
ляется собственное пространство имен: 


<?хмі меизлойЕе"1.0"> 
<иойкеу-115Е> 
<топкеу> 
<деѕсгірііоп хт1п$ : тт= "ір: /Имим. ]тас.огё/рго] ес1$ /топкеуѕ/тт/ "> 
<тт:топкеу> <!-- начало секции топкеу --> 

<тпт:пате>мі гігам</ мт: паме> 
<тт : со1ог>їеа1</тт: со1ог> 
«тт: Ғауогїїе- ѓоойѕ> 
<тт : Ғооа>Вапапа</тт: 004> <мт: Ғооа>Ма1пиї</тт: Ғоой> 
</ тт: Рауогіѓе- ?ооаѕ> 
<тт: регѕопа1їїу-таёгіх> 
Еб 30 00 ОА 1В Е? 9С 20 
</тт: регѕопа1 іїу-маїгіх> 


1 Иногда поиск сведений в подобной документации весьма затруднен; этим обусловлено существо- 
вание «облегченных» вариантов ОосВоокК. 
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</ тт; мопкеу> 
</деѕсгірЕіоп> 
<1осаїіоп>і їуіпв Коот</ 1осаїіоп> 
005 


< /) 
</топкеу> 


<!-- Здесь будут помещены другие обезьяны —> 
</топкеу-1іѕї> 


УВ1-ИДЕНТИФИКАТОРЫ 
Многие ХМЕ-технологии, например, пространства имен ХМЕ, ЅАХ и ЗОАР, основаны на ЦН как 
на уникальных строках-идентификаторах, которые дифференцируют возможности и свойства 
для предотвращения идеологических конфликтов. Любой процессор, который считывает ЦН, 
может быть абсолютно уверен втом, что он ссылается на технологию, подразумеваемую автором. 
Используемые ОКІ-ссылки часто выглядят как ЦВЕ, как правило, в формате Пір: //. В этом случае 
предполагается, что такая строка при отображении в окне меб-браузера приведет к какому- 
либо результату. Однако иногда единственным результатом является: неутешительный ответ 
НПР 404. ОВІ-ссылки, в отличие от ША, не должны указывать на фактический ресурс, они 
лишь должны быть глобально уникальными. 


Разработчики, которым необходимо определить новую ИВ1-ссылку, часто основывают ее на ШВ 
разработанного ими ранее мер-узла. Например, если ранее был спроектирован меб-узел Һр: / 
ммм. дгеептпопкеу-тагКир.сот/^тас, то, основываясь на нем, можно определить такой ЦВ|, 
как Һїр://мм\.Огеептопкеу-тагкир/~јтас/топкеуті/. Даже не получив ответ, все же можно 
гарантировать, что никто другой никогда не будет использовать этот ОВІ. Однако дотошные 
разработчики заботятся о том, чтобы записать в документацию по У!-предпочтениям какие- 
либо сведения об использованной технологии. 


Другое популярное решение состоит в использовании такой службы, как НИр://рий.ога (не 
имеющей отношения кРеп). С ее помощью добавляется дополнительный уровень преобразования 
между АІ, используемым в качестве пространства имен, и адресом, содержащимся в его 
документации; этот уровень позволяет при желании изменить адрес, вто время как ИН остается 
постоянным. 

Иногда ЧЕТ на самом деле содержит информацию (помимо того что просто является уникальным). 
Например, многие процессоры ХМІ-приложений достаточно обоснованно придерживаются ЦН, 
использующихся для объявления пространств имен. Так, для процессоров ХІТ, как правило, 
важно не столько, что у всех ХЅТ-элементов таблицы стилей есть обычный префикс х$1:, 
сколько то, какой ЦН! этим префиксом ограничивается в соответствующем присоединенном 
атрибуте хт1 пз : . Знание того, какой ИН! ограничивается префиксом, указывает процессору на 
то, что требуется использовать, например, последнюю версию ХТ группы МЗС, а не версию, 
предваряющую 1.0, адаптированную к самому последнему процессору (который имеет свое 
пространство имен). 

Модуль ХМЕ : : Матеѕрасеѕиррогї Робина Берджона (Вобіп Вегјоп), доступный в СРАМ, может 
помочь в обработке ХМІ -документов, которые используют пространства имен, и управляет 
преобразованиями префикса в ЦН. 


К счастью, в системе существует Регі-модульХмМі: : МопкеуМІ, который может 
разобрать документ МопкеуМГ, образовав объект. Этот модуль полезен, посколь- 
ку класс ХМЕ: : МопкеумМІ. включает программу для обработки индивидуальности 
МопкеуМГ - элемента матрицы, в котором сведена воедино вся индивидуальность 
обезьяны вплотьдо короткого шестнадцатеричного кода. Напишем программу, ко- 
торая предсказывает, как все обезьяны будут реагировать в данной ситуации: 


#1/иѕг/Біп/регі 

# Эта программа выполняет действия по указанию в командной 
# строке и применяет их к каждой обезьяне из списка 

# обезьян ХМІ-документа (причем содержащий документ 

# файл также указывается в 

# командной строке). 
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изе магп1таз; 

оѕе ѕігісі; 

изе ХМ: :1іЮрХМІ; 
мзе ХМі : : Мопкеумі ; 


шу ($?і1епате, $асїіоп) = @АВСУ; 


шп1еѕѕ (деғіпей (ЅҒі1епапе) арі деҒіпей (Ѕасбіоп)) { 
діе "Оѕаде: $0 попкеу-1151-?і1е асїїоп\п"; 
} 


шу Ѕрагѕег = ХМі::1 10ХМІі - >пем; 
шу $00с = $рагѕег->рагѕе Ғі1е($?їі1епате) ; 


# Получить все элементы обезьян. 
шубтопкеу _поде$ = $раг$ег- >йоситепіЕ1етепї - > ?іпаМ№ойеѕ ("/ /топкеу/ деѕсгірїіоп/ 
тт: топкеу"); 
ҒогеасҺ (@топкеу_поае$) { 
шу Ѕпопкеуюњ1 = ХМ: :МопкеумМі->рагѕе ѕёгіпс($ ->боЅбіёгіпд); 
ту Ѕпате = $топкеуті ->пате . " Ее " . $топкеут1->со\ог . " попкеу"; 
ргіпс "Ѕпате моџ1ӣа геасі іп ‘һе Ғо11оиіпс Ғаѕһіоп:\п"; 
# Метод объекта МопкеуМі, 'асбіоп' получает на английском языке 
#.описание действия, совершаемого над этой обезьяной, 
# и возвращает фразу, описывающую ответное действие обезьяны. 
ргіпі $попкеуп1->асііоп ($асііоп); ргіпі "\п"; 


} 
Результат выглядит следующим образом: 


$ ./топеу _асёїоп.р1 мопКеу$.хтт "Сїуе 16 а Барара" 


Мігігат е бегі попкеу қола узасе іп Фе ЕЮПолло Баз оп: 
таке Ше Бапара. Рә 1. бау "Оо". 


Потакая лени, посмотрим, как программист может создать модуль-помощник 
вида ХМі : : Мопкеумі. 


Создание подклассов 


При создании Рег1-модулей ХМГ-крекингаестьдругой способ «полентяйничать» — 
залезть на плечи гигантов посредством создания. подклассов общих ХМІ -анализа- 
торов, как быстрого способа построить специфические для приложения модули. 


Не требуется наследовать объекты; наименее сложный способ выполнить такой 


вид работы включает создание объекта анализатора обычным способом, прикрепляя 
еготам, где удобно, и, изменяя всякий раз, когда требуется сделать что-либо наХМГ. 
Рассмотрим некоторую фиктивную программу: 


раскаде ХМЕ: : МуТһіпву; 
оѕе 5671се; ие уәөтіпоѕ; 
обе хХМЕі : : Ѕотеѕогі0#Рагѕег ; 
пам { 
# Старый конструктор. 
шу Ѕіпуосапі = 8616; 
шу ЅѕеїЁ = {}; 
1Е (ге? (%1іпуосапї)) { 
Ъ1Іеѕз (5зе1Е, ге? ($1іпуосапї)); 
} езе { 
Ъ1езз (5зе1Е, Ѕіпуосапі); 
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} 


# Теперь создаем ХМГ-анализатор... 
пу брагзег = ХМ: : ѕЅотеЅогі0#Рагѕег-> пем А 
ог Се "Ф по, І сош1ап' паке ап ХМ. ракѕег. Ном уегу за@."; 


# ...и прикрепляем его к этому объекту для 
# дальнейших ссылок. 
фѕе\ї-> {хті}) = брагзег; 
гебогп $ѕе1ї#; 
} 


зор рагѕе ?ї1е { 


Только передадим запрос пользователя 

объекту анализатора (у которого, 

как оказалось, есть метод, называющийся раг$е_111е)... 
пу Ѕѕе1Е = ѕһіЁб; 

пу $геѕиії = $5е11-> {хті} - >рагѕе #і1е; 

То, что произойдет сейчас, зависит от того, что 
делает объект 

ХМ: : ЅотмеЅогі0?Рагѕег, когда он анализирует файл. 
# Предположим, что он модифицируется и возвращает 
# код успешного 

выполнения, поэтому продолжим выполнять только 
что модифицированный | 

объект с ключом 'хмі' и возвратим код. 

тебати бгеза1е; 


} 


Тем не менее, выбранный из подкласса анализатор имеет некоторые достоинства. 
Во-первых, он передает модулю тот же базовый АРІ пользователя, что и модуль в 
запросе, включая все методы для анализа, полезные для ленивых программистов, 
особенно если созданный модуль является модулем-помощником ХМГ-приложения. 
Во-вторых, если используется анализатор, основанный на деревьях, то можно восполь- 
зоваться прежними достижениями и расширить представление этого анализатора о 
структуре данныханализируемого документа, и затем изменить его, чтобы он как мож- 
но лучше служил подловатой пели крекинга, пока выполняет специальные действия. 
Такой шаг возможен благодаря переопределению и наследованию классов Реп. 


Пример создания подкласса ХМІ::СотісѕМІ. 


В этом примере используется воображаемый модуль МопкеуМТ., отходящий в сто- 
рону от «суровой реальности» Сотісѕ$МІ, — языка разметки, применяемого для 
описания интерактивных комиксов!. При этом совместно используются многие 
возможности и принципы К$8. В результате, помимо всего прочего, поддержива- 
ется стандартный путь для комиксов при распределении мер-информации, поэто- 
му модуль-помощник Сопис$ МГ, может быть удобным средством для любого Ре!|- 
хакера, желающего создавать программы, обрабатывающие \еб-комиксы. 
Продолжим путь РОМ для этого примера и воспользуемся ХМі : : [16ХМЕ в ка- 
честве внутреннего механизма выбора. Этот анализатор РОМ -совместимый и до- 
статочно быстродействующий. В данном случае наша цель состояла в том, чтобы 
создать полностью объектно-ориентированный интерфейс АРТ, применяемый для 
обработки СотісѕМІ -документов и всех их основных дочерних элементов: 


! Дополнительные сведения можно найти на \еБ-узле Һ&р://сотісѕті.јтас.ого/. 
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ИЗ ХМі : : СотісѕМЕ ; 


Разбор существующего файла СотісѕМі. 

пу ӘЅрауѕег = ХМ: :Сотіс=М_: :Ракзег->пем; 

пу Ѕсотіс = $рагѕег->рагѕе?і1е('ту соміс.хм1'); 
пу ${1Е1е = $соміс->їії1е; 

ріп "Тһе Сібе оЁ һіѕ сотіс іѕ $6іЕ1е\п"; 
пу @5гірѕ = Ѕсотіс->ѕігірѕ; 


ріп "ТЕ Баз ".ѕса\іаг(@51г1ірѕ)." ѕіоірѕ аѕѕосіасеа уһ іб. \п"; 
Не испытывая особых затруднений, приступим к программированию. 


раскаве ХМГ::Сопис$ МТ; 

# Модуль-помощник, предназначенный для разбора 
+ и формирования Сом1с$МЕ- документов. 

изе ХМЕ: : Е1ЬХМЕ; 


ие разе ам (ХМ: :11ЮХМІ) ; 
Разбор. 


# 
# Мы перехватили выводимые данные для всех методов 
# разбора ХМІ::11ЮрХМІі, а затем продолжим переопределять 
# выбранные вершины в собственные небольшие по 
# размеру классы. 
сир рагзе Ё11е { 
# обычный разбор, но после этого переопределяется 
# и возвращается корневой элемент. 
пу бЅѕе1Е = ѕһіЁс; 
ту 5дӢос = $фѕе1#->50РЕК::рагѕе ?і\е(@ ); 
ту Ѕгоос = $@ос- >йоситепіЕ\етепї; 
гебогп Ѕ$ѕе1#->гер1еѕѕ (Ѕгооі); 


} 

зб рагѕе ѕігіпо { 

# Обычный разбор, но после этого переопределяется 
# и возвращается корневой элемент, 

пу Ѕѕе1Е = ѕһіЁС; 

ту 5дӢос = $ѕе1#->50РЕК: : рагзе_${г1п8 (@_); 

му $гоое = $40с->аоситеп*Е1етеп* ; 

тебохо ф5е1#->гер1еѕ5 ($гоої); 

} 

ЧТО именно здесь сделано? До настоящего времени объявлен пакет, являющийся 
потомком ХМЫ: : Г1ЬХМЕ (с целью использования.базового псевдокомментария), но 
затем появились собственные версии методов анализа деревьев. Тем не менее, все 
они выполняют те же действия: вызывают свои методы ХМ; : Ш 6ХМЕ с теми же 
именами, сохраняют корневой элемент возвращаемого объекта дерева документа и 
затем передают его внутренним методам: Е 

9.0 гебіеѕѕ { 
получим некоторый вид ХМІ ::116ХМ! : : №де 
#(или его подкласс) и, основываясь на его имени, 
переопределим его в один из собственных 
классов Сотіс=мі.. 
пу Ѕѕе1Е = ѕһіЁС; 
пу ($поде) = ё; 

Определяем ‚ Какие типы элементов интересны 
(используется хэш для упрощения поиска.) 
пу %1п%еге$11п8_е1етеп&$ = (сотіс=>.1, 
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регѕоп=>1, 
рапе!=>1, 
апе1-йеѕс=>1, 
іпе= >], 
ѕїгір= 21, 
; 
# Отбросим эту вершину, если это не Е1етейЕ либо 
# что-то интересное. 
# Иначе продолжить работу. 
ту Ѕпате = $поае->чебМапе; 
гебоко фпойе џп1еѕѕ ( (геЁ($поде) ес ' ХМ: : Е1ЬХМЫ: : Ететеп* ') 
апа (ехізѕіѕ (Ѕ$іпіегеѕііпс е1етепез {бпаше})) ); 
# ЭТО интересный элемент! Сообразим, какой класс 
# ему определить и сделаем это. 
ту $саз$ пате = $ѕе1#->еїетепі2с1аѕ5 ($пате) ; 
ріеѕѕ (Фпоае, Фсіаѕѕ пате); 
геїигп Фпоае; Е 


> 
зуб аетепт2саз$ { 


# Изменим имя ХМІ-элемента в соответствии с именем класса, 
ту $зеш = ѕһіїё; 


ту ($%сІаѕѕ пате) = @; 

фсІаѕ5 пате = ис?їгѕї ($с1аѕѕ пале); 

фсІаѕѕ пате =~ $/-(.?)/ис($1)/е; 

фсІаѕѕ пате = "ХМІ::СотісѕМі::$сІаѕѕ пате"; 


} 


Метод ге ]ез$ получает вершину элемента, считывает ее имя и проверяет, 
содержится ли она в жестко запрограммированном списке, содержащем «интерес- 
ные» имена элементов. Если она появляется в этом списке, метод выбирает для 
нее имя класса (с помощью «глупого» метода еіетепі2с1аѕѕ) и переопределяет 
ее в этом классе. 

Такое поведение может показаться иррациональным, если не учитывать тот 
факт, что объекты ХМС : Е1ЬХМЕ не особенно устойчивые. Виной тому является 
способ, с помощью которого они связываются с низкоуровневыми С-подобными 
структурами, образующими «фундамент» Рей. Если получить список объектов, 
представляющий нескольких потомков вершины, и затем вновь затребовать его 
же, могут появиться другие Рег-объекты. Несмотря на это, оба списка могут ока- 
заться функциональными (выступая в качестве АРІ для аналогичных структур в 
дереве С-библиотеки). Благодаря недостатку устойчивости обеспечивается обход 
всего дерева в процессе разбора документа. При этом определяются и вызываются 
«интересные» элементы в специальных классах Сопис$ МГ. 

Чтобы действовать в соответствии с таким поведением, необходимо выполнить 
некоторую «черновую работу», которая заключается в преобразовании объектов 
Нетеп:. Эти объекты преобразуются модулем ХМ. : : ШЬХМЕ в собственные виды 
объектов там, где это возможно. Основное достоинство этого способа (помимо ра- 
дости по поводу того, что результатам чей-то работы присваивается имя нашего 
класса), заключается в том, что можно вызывать эти переопределенные объекты. 
Наконец, можно определять эти классы. 

Во-первых, обратите внимание на метод АЛООАР который присутствует в вир- 
туальном базовом классе ХМі : : СотісѕМі : : ЕІетепі. На базе этого метода насле- 
дуются все ваши «реальные» классы элементов. При просмотре кода бросаются в 
глаза все базовые элементы-потомки и средства доступа к атрибутам классов эле- 
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мента, вызванные при инициализации неопределенного метода (в качестве при- 
мера может рассматриваться метод АОТОГОАО), В этом случае сначала проверяет- 
ся, есть ли этот метод в жестко запрограммированном списке разрешенных эле- 
ментов и атрибутов потомка класса (доступны посредством методов е1етепї () и 
аиг!ри(еО соответственно); в случае отсутствия таковых, вносится в список 


метод-конструктор либо метод-деструктор (в зависимости от используемых имен, 
ааа_тоо или гемоуе_ Тоо, соответственно): 


раскаде ХМІі : :Сот1с$МЕ: : Етемеп* ; 

# Абстрактный класс для всех видов вершин СомісѕМі. 
изе Базе дм (ХМ : : ЕТЬХМЬ:; : Е\етепё) ; 

изе уагѕ ди($АУТОГОАВ @е1емепїѕ @аїїгіриѓеѕ); 


59 АОТОІГОАР { 
щу $5е1Е = зһіғЁі; 
шу $паше = $АЧТОГОАРО; 
бпате =- 5/^.*;:(,%*)$/$1/; 
шу @е1етепїѕ = $5е1?->е1етепіѕ; 
шу @аїїгібиїеѕ = $ѕе1#->абігірибеѕ; 
1Е (отер (/^$пате$/, ©е1етепеѕ)) { 


# Это средство доступа элемента. 

1Е (пу пеи уа1ае = $ [0]) { 

# Установим значение, переписав значение 

# любого текущего элемента этого типа . 

шу $пем поде = ХМЕ: : (16ХМЕ: : ЕТетеп* - >пем ($пате) ; 

ту ЗНем сех = ХМЁ: : (1ЬХМЕ: : Тех*->пем ($пем_уа\ие); 

$пеи_по4е - >аррепасһі1а ($пемн_Ёехі) ; 

шу @кійѕ = $пем_поде->сһі1аМ№одеѕ; 

1Е (пу ($ехіѕііпс пойе) = $зе1Е->Е іпдподеѕ (". /$пате")) { 
фѕе1?->гер1асеСһі1д ($пен пое, $ехіѕїіпе поде) ; 


} еїѕе { 
$зе1Е->аррепаСь11а ($пеи поде); 
} 
} 


# возвратить именованное значение потомка. 
1Е (пу (Ѕехіѕёіпс поде) = $ве1Е->Е іпдподеѕс ./$паше")) { 
гесшут $ехіѕїіпр поде->?ігѕїСһі1а->реї0аќа; 
} езе { 
геі Я 
} 


} е1$1+ (отер (/^$пале$/, @аёёгірибеѕ)) { 
# Это средство доступа атрибута. 
1Е (пу пеи уа1ае = $ [0]) { 
# Установить значение для этого атрибута. 
бвеї1#->ѕебАббгірибе ($паше, $пен_уа1ие) ; 


# Возвратить именованное значение атрибута. 
гесогп $ѕе1#->деёАбігірибе ($паше) || ''; 


# Следующие два метода могут использовать некий 
# контроль на наличие ошибок. 

} е1з1Е (Ѕпапе =- /^а99_(.*)/) { 
шу $с1аѕз со ааа = ХМі : : Сот1с$ МЕ - >е1етеп{2с1а$$ ($1); 
шу Ѕорјесі = $с1аѕѕ іо ааа->пем; 
$ѕе1#->аррепасһі1а(Ѕ$орјесіё); 
геботт $орјесї; 


} е1з1Е (бЅпапе =- /^гетоуе_(.*)/) { 
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шу ($К19) =@ ; 
$ѕе1?- > гетомесһі1а($%кїд) ; 
тебаго $кіа; 


} 


# Заглушки. 


за е1етепез { 
геси (); 
} 


50р аіёгірџиёев { 
гебшт (); 
} 
раскаде ХМ: :Сопіс=МІ.: :Соп1с; 
изе Базе аин (ХМІ.: :Соміс=М: :Е1етепі); 
за еїепепёѕ { 
гебџотп ди(уегѕіоп їіС1е ісоп деѕсгірііоп игі); 


} 
5иЬ пех { 
шу $с1а55 = 551; 
тебатп $с1а55->50РЕК: : пем ('сотіс'); 
} Р 
596 ѕігірѕ { 
# Возвратить список всех объектов, которые являются 
# потомками этого комикса. 
пу Ѕѕе1Е = =ҺіҒЁЕ; 
тебакатар {ХМ : : СотісѕМі. ->гер\1еѕ5($ _) } %5еї#->?іппойеѕ (". /5їгір"); 
} 


56 дес з6т1р { | | 
# Задан ТО, выборка полосы с этим атрибутом '14'. 
шу Ѕѕе1Ё = 561; 
пу (51а) =@ ; 
хпеѕѕ (54а) { 
мати "сеї ѕгір пеейѕ а =ігір іа аз ап агошепі!"; 
геситп; 
} е | 
ту (@51г1рѕ) = $5е1?- > #іпаподеѕ (". /ѕгір[аёїгібиїе: :19='$1а']"); 
й (©ѕїгірѕ > 1) { 
мат "ув ой, іћеге 15 тое ап опе ѕігір міїһ ап іа оѓ $14.\п"; 


геїигп ХМ: : СомісѕМі - > геБ1еѕ5 ($51гірѕ [0]) ; 

Гораздо больше классов элементов существует в реальной версии СотісѕМІ, 
которая имеет дело с людьми, кадрами в комиксах, панелями кадров и тому подоб- 
ное. Далее в этой главе объясняются упомянутые термины, которые будут приме- 
няться для решения реальной задачи. 


ХЯЕТ: преобразование кодаХМЕ в НТМЕ 


Если вы когда-либо занимались жер-крекингом при помощи Рет, то отчасти ис- 
пользовали возможности ХМГ. Это связано с тем, что НТМЕ не слишком далеко 
ушел от целей обеспечения формальной корректности, присущих ХМГ, по край- 
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ней мере, теоретически. На самом деле, язык НТМЕ часто используется в каче- 
стве комбинации разметки, знаков препинания, встроенных сценариев и много- 
го другого из того, что делает создание уе -страниц увлекательным занятием 
(наиболее популярные \еб-браузеры снисходительны к особенностям применя- 
емого синтаксиса). 

В настоящее время и, возможно, еще довольно долго универсальным языком 
Сети будет оставаться НТМГ. Хотя и существует возможность применения в уер- 
страницах истинного языка ХМГ, лежащего в основе ХНТМЕ/, предложенного 
комитетом МЗС, вероятнее всего придется преобразовать его в НТМГ-код в случае 
потребности в применении ХМІ. для \5. 

Этот процесс можно рассматривать во многих ракурсах. Наиболее продуктив- 
ный из них заключается в разборе документа и получении результатов в виде СС]- 
сценариев. В этом примере считывается локальный файл МопкеуМІ., содержащий 
имена моих любимых обезьян, и выводится \еь-страница на стандартное устрой- 
ство вывода (используется вездесущий СС]-модуль Линкольна Стейна (Глисошп 
5(еш), придающий синтаксису некую «перчинку»): 


#1! /изг/Б1п/рег1 

изе махй1тае; 

цве зіісі; 

уе СОТ ам(:ѕсапдага) ; 

ие ХМЕ: : Е1ЬХМЕ; 

пу Эраизег = ХМ: :ХРаб; 

пу 500с = $рагѕег->рагѕе_ іле ('топкеуѕ.хт1'); 

ріп Һеадег; 

ришЕ зба Бо ("Му Реб Мопкеузѕ"); 

ріп Һ("Му Рес Мопкеуз"); 

ріп р("Т һауе Ше ҒПотго попкеуѕ іп пу Һоџѕе:"); 

ріп "<иї>\п"; 

тогеасй Пу Флате посе ($аос - >доситепЕ\етепї - >іпаподеѕ ("/ пт: пате") ) { 
ргіпї "<11>" . $пате поде->#ігѕїСһі1а->ре0аѓа ."</14>\п"; 

} 


ргіпі епа_п+т; 

При реализации другого подхода применяется ХЗГТ. 

Средства ХЅІТ используются с целью преобразования одного типа ХМГ-кода 
в другой тип. Здесь ХЭГТ играет весьма важную роль, поскольку работа происхо- 
дит с ХМГ, а Мер часто требует применения НТМІ. в качестве оболочки для важ- 
ных фрагментов информации, извлеченных из ХМГ-документов. В качестве при- 
мера можно рассматривать одно из ХМГ-приложений, написанное на весьма 
высоком уровне. Это приложение называется АхКії (НИр://ммим.ахКй.ога)), написано 
Мэттом Сержантом и основано на единой структуре сервера приложений. В этом 


' Язык ХНТМЕ может выступать в двух ипостасях. Мы предпочитаем использовать менее 
требовательную «переходную» форму, трактующую «откровенные грехи» в качестве альтерна- 
тивного метода (например, использование тега <Фоп{> вместо предпочтительного метода при- 
менения каскадных стилей). 
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случае можно настроить \/\М/\/-узел, который использует ХМГ-код в виде фай- 
лов-источников. При использовании \еб-браузеров выводится НТМГ-код (а при 
использовании каких-либо других устройств информация выводится в любом, 
наиболее приемлемом формате). 


Пример: Арасһе::росВоок 


А теперь создадим небольшой модуль, который «на лету» преобразует файлы 
ПосВоок в НТМТ-файл. Хотя наша цель не столь претенциозна, каку АхКИ, все же 
будем принимать команды от этих программ, основывая нашу программу на модуле 
Арасћһе, под рег 1. С помощью данного модуля Рей-интерпретатор подключается к 
уеБ-серверу Арасһе, и поэтому позволяет создать Регі-программу, которая выпол- 
няет все виды действий, применяемых по отношению к запросам к серверу. 

Воспользуемся базовыми возможностями той _рег1, создав модуль Рег! с под- 
программой -обработчиком, которая по стандартному имени осуществляет обрат- 
ный вызов. Это имя передается объекту, представляющему Арасһе-запрос, ана базе 
этого объекта определяется, что булет видеть пользователь на экране. 


СОВЕТ 
Довольно часто, при выполнении программ на Рей и ХМЁ в среде Араспе, пользователи испытывают 
некоторое разочарование. Причина этого кроется в самом Арасће или, по крайней мере, в способе 
функционирования этого мер-сервера (разумеется, если при компиляции не были даны отдельные 
указания на сей счет). Стандартный дистрибутив Арасһе включает С-библиотеки Ехраї, встроенные 
в бинарный код, если явно не указано другое. К сожалению, эти библиотеки часто конфликтуют с 
вызовами модуля ХМЕ : : Рагѕег библиотек Ехра где-то в другом месте системы, приводя ктрудно 
устранимым ошибкам (например, ошибки сегментации в Опіх). 


По имеющимся сведениям, сообщество разработчиков Арасће рассматривает исключение этой 
возможности в будущих версиях, хотя в настоящее время она используется Рей-хакерами, 
применяющими Ехраї (как правило, посредством ХМЕ:: Рагѕег) с целью повторной компиляции 
Араспе. Результатом этой операции будет отказ от использования Ехраї (параметру настройки 
ЕХРАТ присваивается значение по). 


Более дешевый прием заключается в использовании низкоуровневого модуля синтаксического 
разбора, который не применяет Ехраї, например, ХМ: : Е1ЬХМЕ, либо более современных 
модулей из семейства ХМ : : ЗАХ. 


Начнем со «старта по типу модуля», затем перейдем к подпрограмме обратного 
вызова: 


раскаде Араспе: : росВоок; 


‹ѕе магпіпоѕ; 

ше ѕігісї; 

изе Арасһе::Сопѕїапіѕ ам ( : соттоп) ; 

иѕе ХМІ::ШБХМІі; 

изе ХМЕНЬХЗЕТ; 

сиг $хмі раїћ; # Каталог документа источника. 

сиг $раѕе рас; # Каталог НІМІ-вывода. 

оог $х51ї Ғі1е;# Путь к таблице стилей. 
# ХІТ росВоок-в-НТМЬ. 

сиг $1соп діг; # Путь к значкам, использующимся на 
# индексных страницах. 


595 БапбПек { 
ту $: = БМ; # объект запроса Арасће. 
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# Получить информацию о конфигурации из 
# Арасһе-файла сопЕ19 
$хт1 раїћ = $г->А1г_соп{18('90с_91г')} ог 
аіе "дос ӣіг уагіар1е поб звеё.\п"; 
$раѕе рабһ = $г->іг_соп?ів('һїіті_0іг') ог діе "һіті_діг уагіар1Іе поб 
ѕеї. \п"; 
ісоп аіг = $г->йїіг соп?ір('ісоп їг’) ог аіе "ісоп іг уагіар1е поб 
ѕеї. \п"; 
оп1еѕѕ (-а $%хті_раёћ) { 
$г->105_геазоп ("Сап'Ё изе ап хм1_раёН оЁ $хті раёћ: $!", $г->#і1епаме); 
аіе; 
} 
шу $ѓііепаме = $г->#і1епате; 


$#і1епате =~ 5/$раѕе раїћ\/?//; 
# Добавить в путь информацию 
# (файл может в действительности не 
# существовать... ЕЩЕ) 
$+11епате .= $с->раёһ іпғо; 
$хв1е ҒіЛе = $г->41г. Соп?ір('хѕ1 #11е') ог діе "х=16 ҒіЛе Арасһе уагіар1е 
по ѕеб.\п"; 


# Будет вызвана подпрограмма, после чего произойдет 
# вывод на печать. 


# Это запрос индекса? 
1Е ( (а "$хпі раїћ/$#і1епате") ог ($111епаме =- /іпаӣех.һїіт1?5/) ) { 
# Почему бы нет! Мы выхватили индексную страницу. 
шу ($8іг) = $111епате =- /^(. *) (\/іпдех.Һш1?)?$/; . 
# Полдела: добавить замыкающую косую черту к КІ. 
1Е (поб($2) ара $г->хат1 1!- /\/$/) { 
Фг->игі($г->игі '/'); 
} 
маке _іпдех_раре($г, $діг); 
гебиуп $г->ѕіаіиѕ; 
} еїѕе { 
# Нет, это запрос какой-то другой страницы. 
таке_Чос_разе($г, $111епате); 
геогп $г->ѕіаіиѕ; 
} 
тебатп $ӯ->ѕібаіиѕ; 

} 

Эта подпрограмма выполняет фактическое преобразование в стиле ХЗГТ, ото- 
бражая имя исходного файла ХМТ-источника и имя другого файла, в который сле- 
дует записывать преобразованный НТМІ -вывод. 

ѕир ёкапѕҒоип { 

пу (5Е11елате, $%һіті_?іЛепате) = @_; 

# Убедитесь, что есть место для этого файла. 
маубе_мКа1г ($? ї1епате) ; | 

щу Ѕрагѕег = ХМі : : Е1ЬХМЁ->пеи; 

шу $х$1ё = ХМЕЁ: : ЕТЬХ5ЕТ->пеи; 


# Поскольку библиотека 1ірхѕіє выглядит 

# слегка поврежденной, нужно перейти в каталог 

# ХЅЦТ-файла, иначе включение этого файла невозможно. ;0 
изе Сид; # Так можно получить текущий рабочий каталог. 
пу $огівіпаі іг = сий; 

ту $х511 їг = $х816_ Ее; 
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$х51е аір =- $/^(.*)\/.*$/$1/; 

спа1г ($х511_91г) ог Че "Сап' сһаіг о $х81е діг: $1"; 
шу $ѕоџгсе = $рагѕег->рагѕе_?і1е("$хт1_раїћ/$#і1епаме"); 
пу $ѕіу1е дос = $раг5ег- >раг$е_111е ($х514_111е); 
шу$ѕїіу1еѕһееї = $х516->рагѕе =бу1еѕһееі ($5Еу1е_@ос); 

пу $геза1 Е -$э6у1езВееЕ->ЕгапзЕотгт($зоитсе); 


ореп (НТМЕ_ОШТ, ">$раѕе раїћ/$һїіт1_#і1епате") ; 
рее НТМІ_00Т $%51у1еѕһееї- >оиїриї ѕїгіпе ($геѕи1їѕ) ; 
с1оѕве (НТМі_00Т); 


# Вернуться к исходному каталогу. 
сһаіг ($0огівіпаїі біг) ог бе "Сап' сһаіг бо $огіріпа1 іг: $!"; 
} 


Теперь рассмотрим пару подпрограмм, предназначенных для формирования ин- 
дексных страниц. В отличие от страниц документа, которые являются результатом 
Х$ГТ-преобразования, индексные страницы основаны на временном, большом мас- 
сиве содержимого документа, которое было таблицей, наполненной информацией, 
захваченной из документа посредством ХРа. Сначала проверяется соответствую- 
щий элемент метаданных, затем происходит обращение к другим битам информа- 
ции (при отсутствии метаданных). 


510 таке_1паех_раве { 
ту ($г, Фаіг) = е; 


# Если нет соответствующего каталога в ХМІ-источнике, 
# запрос терпит неудачу. 


шу $хті_аіг = "$хті раћ/$а1г"; 
оп1еѕѕз (-к $жи1 дір) { 
хп1еѕѕ= (-а $жет аіг) { 
# Увы, это не каталог. 
$г->вбабаз( МОТ_РОЦМО ); 
геїигп; 
} . 
# Это каталог, но его нельзя прочитать. Ничего. 
$т->в6аЕаз( РОВВТООЕМ ); 
геіигт; 


} 


# Выбрать піітеѕ из этого каталога и іпіех.Һі 
# в соответствующем каталоге Һс. 
пу $іпдех Е11е = "$баѕе раїһ/$41г/іпдех.һїіт1"; 


шу $хті_тііте = (з1а+%($хт1_а1г)) [9]; 
шу ЗВ шее = (5{аї($їпдех ?і1е)) [9]; 


# Если индексная страница старше, чем ХМІ-каталог, или 
# она просто не существует, сформировать новую страницу. 
1Е ((пої ($һті тііте)) ок ($61 біте <= хт] шёіте)) { 
сепегасе іпдех ($хю1 аір, "5Ъазе раёһ/ дір", $р->игі); 
$г->#іЛепате ($іпдех__#11е) ; 
ѕепа_раве(%г, $іпдех_?і1е); 
геїигп; 
} езе { | 
# Помещенная в кэш индексная страница подходит. 
# Пусть Арасһе обработает ее. 
$.->Е11епапе ($1пӣех Ғі1е); 
$ү->раіһ іпҒо(''); 
ѕепа_раре($г, $1п4ех_+11е); 


} 
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геїигп; 


ѕир сдепегаёе іпдех { 


пу ($хті аір, Ѕһеті іг, Ѕраѕе дір) = @ ; 

+ Удалить возможный завершающий / из баѕе іг. 
$раѕе діг=- 51/511; 

пу $іпдеҳ Ее = "$%һт1_аіг/іпдех.һіт1"; 

шу 51оса1 іг; 


1Е (5Һті іх =- /^$раѕе раїһ\/*(.*)/) { 
Ѕ10оса1 іг = $1; 
} 


# Создать каталоги в случае необходимости. 
таубе ткаіг ($%1оса1 аїг); 
ореп (ТМОЕХ, ">$іпйех_?і\е") ог Піе "Сап'Е мифе со $1паех_111е: 5!"; 


орепаіг (рік, ѕхт] аіг) ог Фе "СооЛар'Е ореп дігесіогу хт] дір: $!"; 
спаїг ($хм1 іг) ог діе "Сошап'ё сһаіг бо Ѕхті аір: 5!"; 


+ Установить файлы, содержашие значки. 
пу Ѕаос ісоп = "$1соп_91г/вепег1с. 811"; 


пу бк ісоп = "$1соп_@1г/фто14ег.в1Р"; 


Создать визуализуемое имя $10са1 іг (возможно похожее). 


пу $10саі іг 1абеі = 51оса1 дір || 'досопепі гоо*'; 


Вывести на печать начало страницы. 


ріп ТМОЕХ <<ЕМО; 
«Ат 


> 


<һеадь<біб1е>Іпдех оЁ $10са1 фіг 1абе1</1ії1е></һеад> 


<роду> 


<һ1>1пдех оЕ $10оса1 аіг 1аре1</һ1> 
<сар1Іе мійїћ="100%"> 


ЕМО 


# Вывести на печать по одной строке на файл в 
# этом каталоге 


Уре (пу $Е11е = геайаіг(рік)) { 


# Игнорировать файл с точкой & каталоги & 
# служебные символы 
1Е СЕ 5ЕПе && ЅҒі1е ~ /^\./) { 

# Создать объекты анализатора. 

пу Зрагзег = ХМ: : (16ХМЕ->пеи; 


# Проверить формальную корректность, 

# отбросить, если не подходит: 

еуа1 {$рагзег->раг5е_111е($111е);}; 

1Е ($6) { ў 
мап "В1Іессһ, поё а ие11-Ёоүтеа ХМ. Ёі1е."; 
мати "Еггог маз: 5@"; 
пех; 


} 
пу 69ос = $рагѕег->рагѕе Ғіле($#і1е); 
пу %1пЁо; # Будет хранить 

# презентабельную информацию. 


# Определить тип корня. 
пу $гоо* = $40с->доситеп{ЕТетеп(; 
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пу Ѕгоос буре = $гооЕ->аемате; 


# Теперь попробуем получить 
+ соответствующую информацию о вершине, 

# $7001 по 

пу (510) = $гоо&->11паподез ("$ { гоої їуре} іпғо"); 
ТЕ (бло6о) { . 


# Элемент іпЁо. Присвоим ему значение с 

# помощью параметра %іпѓо. 

1Е (пу (Ѕарѕігасі) = $%іп?о->Ғіпӣпойеѕ ('абѕїгасї')) { 
ЅіпғҒо(арѕігасі} = Ѕарѕёгасі->ѕігіпа мае; 

} е151? (Ѕхоо Буре ед 'геҒегепсе') { 


# Мы можем использовать первый ге#ригроѕе 
# вместо арѕіёгасі. 

1Е ( (бабзехасе) = $гоої->?іпӣподеѕ ('/геғегепсе/ гетепїгу/ 
геҒпатедіу/ге#ригроѕе')) { . 
ЅіпҒо(арѕігасі} = $арѕїгасї->5ігіпр ма1џие; 


} 


} 

ЇЕ (ку (59асе) = $іпғо->?іпапойеѕ ('даїе')) { 
Ѕіпғо{дабе} = ЅдӢабе->ѕігіпа уа1џе; 
} 


} 
1Е (пу ($6161е) = $гоої->#іпйпойеѕ(' {1{1е')) { 
ЅіпҒо{ іе) = 5 е->буша уа1џе; 
} 
# Заполнить %іпѓо, нам не нужен ХМ. для... 
01е$$ (Ѕ51іпғо{дабе}) { 
пу пешие = (ѕбаб(Ѕ#Не)) [9]; 
Ѕіпғо{дабе} = Іоса1біпе (Ѕпёше); 


} 
ЅіпЁо{іб1е} ||= $#11е; 
# Достаточно іпЁо. Построим строку таблицы НІМІ. 
ре МОЕХ "<6у>\п"; , 
# Установим имя файла для связи с -- Ёоо.Һ. 
пу $] Е11е = $#і1е; 
о 11е = 5/^(.* ) \..*$/$1. НТИ; 
ріп ЕХ "<ба>"; 
ргіпі МОЕХ "<іто ѕгс=\"Фаос ісоп\">" № Фаос ісоп; 
ргіпї М№ЕХ "<а һге?=\"$раѕе іг/$һіт) #іЛе\">$іпғо{ іле) </а></Еа> "; 
Ғогеасһ (ом(арѕсгасі дабе)) { 
ріп ПМОЕХ "<Еа>ЅіпЁо{5 }</60> " 1Ё ЅіпѓҒо{5 }; 
} 
реше ОЕХ "\п</6г>\п"; 
} “= (а Ѕ#1е) { 
# Просто выполним компоновку каталогов. 
# ...за исключением игнорируемого каталога. 
пехі 1Е агер (/^$111е$/, ди(КС5 СУЗ .)) ог ($ЕШе ед '.. 
апа поё 51оса1 аі г); 
риіпс ТМОЕХ "<іг>\п< а>" ; 
ріп ІМОЕХ "<а Нге{=\ "$ Базе_41г/$11е\ "> <1тв8 
$гс=\"$41г_1соп\">" 1Е бах ісоп; 
ріл ТМОЕХ "5#11е</а></ёа>\п</Ег>\п"; 
} 
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# Закроем таблицу и завершим страницу. 
ргіпі ТМОЕХ <<ЕЮ; 
</бар1е> 
</Љойу> 
</һім1> 
ЕМ” 
с1ове (ТМОЕХ) ог ӣіе "Сап' с1оѕе $1пӣех Ғі1е: $!"; 
с1оѕедіг (рв) ог @1е "Сап' с1ове $хті_й1г: $!"; 
} | 
Эти подпрограммы основаны на подпрограмме преобразования, выполняемого 
посредством формирования страниц. Обратите внимание на использование кэши- 
рования: при этом сравнивается время создания/модификации файла-источника 
ДосВоок и файла-получателя НТМГ, и последний перезаписывается только в том 
случае, если он старше, чем первый. (Конечно, если отсутствует НТМГ-код, всегда 
создается новая \еб-страница.) 


эф таке дос раве { 
пу (5х, $НИМ_111епате) = @ ; 
# Формируем имя файла ‘источника, заменяя 
# существующее расширение файла расширением .хт1. 
пу $хт\_+11епате = $һёті_#і1епате; 
$хи1_Е11епаще =- $/^(.*)(?:\..*)$/$1.хт1/; 


# Если есть проблемы с чтением ХМЬ-файла источника, то это 
# связано с результирующим НТМИ. 
10]е$з (-г "$хт1 _ра&й/$хт1_111епате") { 
оп1еѕѕв (-е "$%хт1 раїһ/$%хт1_#і1епате") { 
$г->вбабиѕ( МОТ _РО0МО ); 
гебигп; 
} е1ѕе { 
# Существует, но нет прав чтения, не 
# обращать внимания. 
$т->всабаз( РОВВТООЕМ ); 
гебигп; 
} 
} 


# Выбрать тїітеѕ из этого файла и соответствующего 

# НЕт1 -файла. 

шу 5х тбіте = ($4а%("$хт1_раеп/$х1 _111епаме")) [9]; 

ту $001 еще = (ѕїаї("$раѕе раёћ/$һіт1_?і1епате")) [9]; 
# Если Һіті-файл старше, чем ХМЬ-файл, или если он просто 
# не существует, создать новый файл. 


1Е ((поб ($561 тсіте)) ог ($һіт1 тііте <= $хи шеше)) { 
їгапѕтогт($хті_#і\епате, $һЕті_?і1епаме) ; 
$г->#і1епаме("$баѕе раїћ/$һіті_Ғі1епате") ; 
$г->вабиѕ( РЕСШМЕО ); 
гесотп; 

} е1зе { 
# Он помещается в кэш. Пусть Арасһе использует 
# существующий файл. 
$т->вбабиз( ЕСІМЕ” ); 
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500 пепо ресе { 

ту ($г, $һЕт1_#і1епате) = ©; 
Есть проблема: если мы создаем файл, мы не можем 
записывать в него и сказать 'ОТМЕНИТЬ', поскольку 
по умолчанию сервер обрабатывает подобные обращения, 
отображая сообщения "файл-не-найден". Пока я не 
нашел лучшего решения, я просто отображаю содержимое 
файла и выполняю ОЕСУМЕ только для известных 
кэш-обращений. 
$г->ѕіаїіиѕ( ОК ); 
$г->ѕепа һр һеадег('+ехї/һїті') ; 


ореп(НТМЕ, "$һіті_#і1епате") ог 

аіе "Сои1ап'ї геаа $раѕе раїћ/$%һіті #епате: $ !"; 

мпИе (<НТМІ>) { 

фг- > ргіпі($_); 

} 
со5е(НТМЕ) ог аіе "Сошап'ї сіоѕе $һіт1 #і1епате: $!"; 
геїигп; 


+++Ж=-—Я 


} 


Наконец, существует подпрограмма-утилита, помогающая в трудоемкой зада- 
че: копирование структуры подкаталогов в кэш-каталог, который отображает ка- 
талог-источник ХМГ: 

510 таубе ткаіг { 

# Задан путь, убедитесь, что приводящие к нему 
# каталоги существуют, создайте каталог, если он 
# не существует. 
ту ($%#і1епате) = } 
ту ©@раїһ_рагіѕ = ЕЎ, $111епате) ; 
# Если последний объект - имя файла, отбросьте его. 
рор(©раїһ рагіѕ) і? -# $#і1епате; 
ту Фігауегѕеа раїһ = $баѕе раїћ; 
#огеасһ (@раёһ_рагїѕ) { 

фігауегѕеа раїһ .= "/$_"; 

ипіеѕѕ (-а Фігауегѕеа раїһ) { 

ткаіг ($1гауегѕеа раїһ) ог аіе "Сап пкдіг $їгауегѕеа раїһ: $!"; 


} 
} 


гефигп 1; 
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Язык ХІТ имеет ограниченные возможности, в то время как потенциал совмест- 
ной обработки средствами Рег|, ХМТ, и Мер поистине безграничен, как и объекты, 
которые могут обрабатываться с их помощью. Иногда недостаточно просто поста- 
вить клиентам разобранный ХМГ-код, а необходимо написать Рей-модуль, кото- 
рый «выжимает» из ХМГ-документов интересную информацию и строит нечто в 
стиле Меб, не связанное с требуемым результатом. Нечто похожее было проделано 
в предыдущем примере, когда применялся исходный язык ХЅІ7Т при преобразова- 
нии документов РосВоок с одновременным созданием индексной страницы. 
Поскольку мы столкнулись с проблемами применения таких ХМІ -методов, как 
К55 и СотісѕМІ. в этой и предыдущей главе, то напишем небольшую программу, 
функционирующую в меб-стиле. С целью иллюстрации применяемой идеи, созда- 
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дим простую ССІ-программу, которая формирует индекс любимых интерактивных 
комиксов пользователя (в воображаемом мире у всех есть соответствующие доку- 
менты Сопус$МГ.): | 


#1! И/изг/Б1п/рег1 


Очень простой обработчик СотісѕМі; задан список 
ОВГ-ссылок, указывающих на Сотіс=М_-документы, выбрать 
их, выровнять их сценарии в один список, а 

затем сформировать листинг мер-страницы, связывая и, 
возможно, отображая на экране сами сценарии, упорядочив, 
начиная от самого последнего сценария. 


изе магп1таз; 
оѕе зігісі; 


оѕе ХМЕ: : Сотіс5МЕ; # ...так что мы можем создать объекты СотісѕМі. 
оѕе ССІ ам (: ѕіапдага) ; 
изе ІЙР; 


изе расе: : Мапір; # Поскольку мыслишкомленивые, чтобы самим сравнивать даты 


# Предположим, что ОК моих любимых СомісѕМі - документов 

# в Интернете находятся в незашифрованном текстовом файле 
# на диске, с одним ОК на строку. 

# (Что, никакого ХМ? Позор...). 


шу џг1 Е11е = $АКСУ[0] ог аӢіе "Оѕаде: $0 иг1-#і1е\п"; 


шу @иг15; # список ОЕ, на Сотіс=М_-документы 
ореп (0815, $иг1 Е11е) ог аіе "Сап'Е геай $иг1 Ғі1е: $! \п"; 
мћһі1е (<0815>) { сһотр; риѕһ @џг1ѕ, $; } 

с1ове (0815) ог ӣіе "Сап'Е с1оѕе $0г1_#ј1е: $! \п"; 


# Создать пользовательский іМР-агент. 
щу оа = МР: :ОзегАдепе->пем; 
шу Ѕрагѕег = ХМ: :Сош1с8Ми->пем; 


пу @5їгірѕ; # Здесь содержатся объекты, представляющие комиксы. 


Ғогеасһ ту $ат1 (@иг15) { 
пу $гесиеѕ = НТТР: : Кедиеѕї- >пен (СЕТ=>$иг1); 
шу $геѕи1ї = $џа->гедиеѕі ($гедиеѕё); 
шу $сотіс; А # Сохраним комикс, мы еще вернемся 
1Е ($хеза1->15 ѕиссеѕѕ) { 
# Проверим, понравится ли это СотісѕМі - анализатору. 
оп1еѕз ($сотіс = $рагѕег->рагѕе ѕігіпо ($геѕзџи1ё->сопбепё)) { 
# Увы, это неподходящий ХМІ-документ. 
магп "Тһе досиштепё а $игі іѕ поб доой ХМІ.!\п"; 
пехі; 
} 
} еїѕе { 
матп "Ехгог аб $ит1: " . $геѕи1б->ѕіабиѕ Ііпе . "\п"; 
пехі; 


} 


# Теперь очистим все сценарии от комиксов, поместив 
# в каждый несколько хэш-ссылок вместе с информацией 
# о самом комиксе. 
Ғогеасһ шу $5їгір ($сотіс->згірѕ) { 
разь (@51гірѕ, {5їғ1ір=>$5їгјр, соміс_їії1е=>$сотіс->їії1е, 
соміс цг1=>$сотіс->иг1}); 
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# Упорядочим список сценариев по дате. (Мы используем 
# здесь экспортируемую функцию Оп1храбе Ва{е; :Мапір, 

# преобразуя даты григорианского календаря 

# в даты, принятые в Опіх). 

пу @5ог+ей = ѕогі {Опіхрабе ($$а{з6г1р}->9аке, "%5") <=> 
Опіхрабе ($$6{56х10}->Яасе, "%5")} @ѕїгірѕ; 


# Теперь мы построили мер-страницу! 


реше Беадег; 
ри1пЕ ѕ&агї імі ("аѓќеѕї сотіх"); 
ргіпі ћ1("ЕїіпКѕ Со пет сотісѕ..."); 


# Пройдемся по упорядоченному списку в обратном порядке. 
Еогеас ту Ѕѕіг1р іпЁо (геуегѕе (@ѕогёеа)) { 

пу ($4111е, $01, 5ѕуд); 

пу $51гір = $$%5їгір_іп?о({ѕїгір); 

фїіїЛе = јоіп (" – ", Ѕѕігір-ьііё1е, Ѕ5ігір->ӣабе); 

# Гиперссылка заголовка на ОВІ-ссылку, если 

# таковая подготовлена. 

1Е (исі = $51гір->иг1) { 

$Е1ЕТе = "<а Игеф='$иг1 ' >$4141е</а>"; 
} 


# Аналогично поступаем с заголовками и 
# ОБГ-ссылками комиксов. 
ппу $сом1с_+11е = $$$ г4р_1пРо{ сом1с_1141е}; 
ІЁ ($$54г1р 1п0{сот1е_иг!}) { 
$сотіс_ іе = "<а һге?=' $$$ %г1р_1пФо{сот1с_иг1} '>$ сои с 41 1е</а>"; 
} 


# Вывести на печать заголовки. 
ргіпі р("<р>$сотіс_ 11е</0>: $411е"); 
ргіпї "<и />"; 
} 
‚рип{ епа ћіті; 


Учитывая сложности, с которыми мы столкнулись при использовании модуля 
Арасћһе: : ОосВоок, эта программа может показаться слишком простой; она не вы- 
полняет кэширование, не включает регуляторы количества обрабатываемых полос, 
а ее «познания» в области структуры \еб-страниц поверхностны и довольно при- 
близительны. Хотя она великолепно работает и демонстрирует свои преимуще- 
ства при использовании модулей-помощников типа ХМЬ: : Соті сз МГ. 

Наэтом завершается краткий обзор возможностей совместного применения Рей 
и ХМГ. Как отмечалось в начале книги, взаимосвязь между этими двумя техноло- 
гиями еще мало изучена, а возможный потенциал до конца еще не осознан. Во время 
работы над этой книгой появились новые анализаторы вида ХМЁЕ: : Е1ЬХМЕ и новая 
концепция Рей!5АХ2. Мы надеемся, что предоставили достаточно информации и 
содействовали в том, чтобы вы стали участником этих событий, поскольку в бли- 
жайшие годы намечается громадный прогресс в этой области. 

<а1опа> Удачи во всех начинаниях! </ а1оһа> 
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